susu4513-CSDN博客

原创爬虫学习笔记-实战爬取快代理

爬取快代理网站内容二话不说，码来！！！完整代码如下：import requestsfrom bs4 import BeautifulSoupimport timeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

2021-11-08 09:28:04 159

原创爬虫学习笔记-实战爬取豆瓣TOP250（慎重）

使用reques库和BeautifuSoup库注意爬取数量，楼主把内容全爬导致IP被检测了。。。。。二话不说，码来！完整代码如下：import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/9

2021-11-07 15:45:26 243

原创爬虫学习笔记-xpth实战项目

ZOL笑话大全网爬取笑话标题和笑话内容文字。二话不说，码来！完整代码如下：import requestsfrom lxml import etreeimport timeimport jsonheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'

2021-11-06 10:00:01 204

原创爬虫学习笔记-xpath

Xpath使用使用//获取整个页面当中的元素，然后写标签名，然后再写谓词进行提取，比如：//title[@lang='en']//ul[@class="article-list"]/li[@class="article-summary"]//a[@class="all-read"]/@href注意：1./和//的区别：/代表只获取子节点，//获取子孙节点，一般//用的比较多，视情况而定2.contains:有时候某个属性中包含了多个属性值，那么可以使用constains函数，如：//t..

2021-11-06 09:00:32 138

空空如也

django创建新的app报错 Fatal error in launcher: Unable to create process using

2021-11-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫学习笔记-实战爬取快代理

原创 爬虫学习笔记-实战爬取豆瓣TOP250（慎重）

原创 爬虫学习笔记-xpth实战项目