- 博客(4)
- 问答 (1)
- 收藏
- 关注
原创 爬虫学习笔记-实战爬取快代理
爬取快代理网站内容二话不说,码来!!!完整代码如下:import requestsfrom bs4 import BeautifulSoupimport timeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
2021-11-08 09:28:04 159
原创 爬虫学习笔记-实战爬取豆瓣TOP250(慎重)
使用reques库和BeautifuSoup库注意爬取数量,楼主把内容全爬导致IP被检测了。。。。。二话不说,码来!完整代码如下:import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/9
2021-11-07 15:45:26 243
原创 爬虫学习笔记-xpth实战项目
ZOL笑话大全网爬取笑话标题和笑话内容文字。二话不说,码来!完整代码如下:import requestsfrom lxml import etreeimport timeimport jsonheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
2021-11-06 10:00:01 204
原创 爬虫学习笔记-xpath
Xpath使用使用//获取整个页面当中的元素,然后写标签名,然后再写谓词进行提取,比如://title[@lang='en']//ul[@class="article-list"]/li[@class="article-summary"]//a[@class="all-read"]/@href注意:1./和//的区别:/代表只获取子节点,//获取子孙节点,一般//用的比较多,视情况而定2.contains:有时候某个属性中包含了多个属性值,那么可以使用constains函数,如://t..
2021-11-06 09:00:32 138
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人