python爬虫get json解析

最新推荐文章于 2024-06-13 10:01:55 发布

luoxiping1

最新推荐文章于 2024-06-13 10:01:55 发布

阅读量533

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luoxiping1/article/details/79873385

版权

# -*-coding:utf8-*-
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import requests
import json
import sys

reload(sys)

sys.setdefaultencoding('utf-8')

'''''重新运行之前请删除content.txt，因为文件操作使用追加方式，会导致内容太多。'''


def towrite(contentdict):
    f.writelines(u'文章标题:' + str(contentdict['title']) + '\n')
    f.writelines(u'作者名称:' + str(contentdict['user_name']) + '\n')
    f.writelines(u'创建时间:' + str(contentdict['category']) + '\n')
    f.writelines(u'类别:' + str(contentdict['created_at']) + '\n\n')


def spider(url):
    print(url)
    html = requests.get(url)
    # print(html.text)
    # selector = etree.HTML(html.text)

    content_field = json.loads(html.text)

    articles = content_field['articles']
    print(len(articles))
    item = {}
    for each in articles:
        item['title'] = each['title']
        item['user_name'] = each['user_name']
        item['category'] = each['category']
        item['created_at'] = each['created_at']
        towrite(item)


if __name__ == '__main__':
    pool = ThreadPool(2)
    f = open('content.txt', 'a')
    page = []
    for i in range(0, 2):
        newpage = 'https://www.csdn.net/api/articles?type=more&category=home&shown_offset=0'
        page.append(newpage)

    results = pool.map(spider, page)
    pool.close()
    pool.join()
    f.close()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

luoxiping1

CSDN认证博客专家 CSDN认证企业博客

码龄14年

39: 原创

2万+: 周排名

231万+: 总排名

14万+: 访问

: 等级

1340: 积分

9: 粉丝

33: 获赞

6: 评论

44: 收藏

私信

关注

热门文章

分类专栏

springcloud
es 1篇
VUE 1篇
HTTPS
web前端
移动开发 17篇
知识点 14篇
小程序 3篇
后端 14篇

最新评论

ES 增删改查练习
邱崇源: 好文章，必须支持一下
SSH免密登陆
不正经的kimol君: 支持博主，欢迎回赞哦~
ElementUI无法安装的解决方法
阿猫阿狗1998: s
使用pyenv管理工作环境
qq_38469401: <br>##感谢博主的无私分享 <br>##本人也在学习Python，近期收集整理了161本关于Python的电子书，分享给大家！ <br>##这些书足够一个Python新手从入门到精通再到成神，所有阶段的工具书需求！ <br>##百度网盘下载链接：链接：https://pan.baidu.com/s/1xMIUxBIsGjamCn5QbRrxTQ 提取码：44p4 <br>##文件有点大，总共11G，所以我分了三个包。配有整理好excel书单。 <br>##需要的尽管拿走，不用谢！
微信小程序 WXML提供了import和include引用方式
mld970512: 你直接拿人家官网的拿过来有啥意思啊 ,我就是官网的看了不懂才百度看看有没有详细的啊啊啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。