python之爬虫

最新推荐文章于 2022-05-30 23:42:48 发布

蟠桃毛桃大油桃

最新推荐文章于 2022-05-30 23:42:48 发布

阅读量653

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45100746/article/details/104107877

版权

用python来写一个爬虫

要爬的网站网址如下：https://lovelive.tools/
这个网页的初始页面是这样的：

点击再来一条，页面上的话语可以变换成不同的语句。

我们的目的就是把这个页面上的这些语句爬出来。
在这个页面上，如果你的键盘上F12直接表示功能键的话，就直接按F12；如果不是，需按“Fn+F12"。

右边这个页面叫开发者工具，而且在出现的这栏里还是有很多栏的，我们选择Network这一栏，因为这里都是网络请求。

此时你再点击”再来一条“，页面右侧会发生如下变化。

点击”Name"下方的“1”会出现如下界面

右侧第一条会有一个URL的网址，因为这是一个get请求，所以可以用浏览器直接打开。

将刚刚网页上的文字粘贴复制到https://www.json.cn/这个网址的左侧部分，在右侧我们可以更直观的看出这个数组里所包含的元素

我们可以看出来我们想爬出来的语句的元素名是“content”，那么我们可以开始写我们的代码了

先用import语句导入两个模块

import requests
import json

自定义变量名req

req = requests.Session()

requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该网站的其他网页都会默认使用该session之前使用的cookie等参数

解析json

json_obj = json.loads(res.text)

因为这个json第一层是个数组，所以双重数组第一个中括号里写0；想要得到”content“元素，所以第二个中括号写的是content

print(json_obj[0]['content'])
return json_obj[0]['content']

用list()直接申请一个列表

contexts = list()

调用100次get_context（）这个函数

    for i in range(100):
        contexts.append(get_context())

a的作用是打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

 f = open('lovelive.txt', 'a')

将提取的100句话存入刚刚建的文本文档里

 for context in contexts:
        print(context, file=f)

一个爬虫就写好啦，整体代码如下

输出的效果

蟠桃毛桃大油桃

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

蟠桃毛桃大油桃 CSDN认证博客专家 CSDN认证企业博客

码龄5年

12: 原创

56万+: 周排名

15万+: 总排名

5424: 访问

: 等级

188: 积分

7: 粉丝

24: 获赞

6: 评论

12: 收藏

私信

关注

热门文章

分类专栏

WEB漏洞 6篇

最新评论

ppt的小技巧
CSDN-Ada助手: 恭喜您撰写了第12篇博客，题为"ppt的小技巧"。阅读您的博客，我对您的专业知识和写作能力深感钦佩。您在博客中分享的PPT技巧确实非常实用，让我受益匪浅。继续创作下去，我相信您的博客会吸引更多的读者。不过，如果您愿意接受一些建议的话，我希望您能够在下一篇博客中进一步展开，探讨一些高级的PPT技巧或者分享一些案例分析。这将有助于更深入地理解和应用这些技巧。再次恭喜您，期待您未来更多精彩的博客！谢谢您的辛勤付出，以及对读者们的无私分享。
ppt的小技巧
蟠桃毛桃大油桃: 关注后续~
ppt的小技巧
零一天地: 可以出一期ppt制作的美学规范吗
SQL注入和联合查询注入
i哈哈i: 联合查询注入为啥2前面得加-呀
DVWA和sql注入天书中不报错问题的解决
R4teL_M: 改了，还是没用QAQ

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。