![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫项目
文章平均质量分 55
Ethan奕诚
偷偷学习,拉开距离
展开
-
python爬虫训练项目5-豆瓣电影Top250(多线程)
之前和大家分享过豆瓣电影Top250的爬取教程,该教程没有涉及到多线程,爬取的速度稍微会慢一些。python爬虫训练项目2-豆瓣电影Top250(适合初学者)_Ethan奕诚-CSDN博客今天为大家带来了升级版-采取多线程的方式进行爬取,主要是通过 “线程池 ”实现,更改一处即可实现,大家可以翻阅我之前的豆瓣爬虫那篇文章查看源码:Before:if __name__ == '__main__': start = time.time() # 设置爬取页数 for...原创 2021-11-28 11:13:29 · 1198 阅读 · 0 评论 -
python爬虫训练项目2-豆瓣电影Top250(适合初学者)
尝试对豆瓣电影Top250进行爬虫训练,整体爬虫思路如下:1.对网页进行请求(豆瓣电影Top250为get请求,用requests.get)2.对网页内容进行解析(正则表达式或Beautifulsoup)3.对解析的数据进行保存(pandas或xlwt)此次用Beautifulsoup解析,xlwt写入数据并保存,Beautifulsoup相对于正则表达式能比较容易的解析想要的网页内容,对新手友好;pandas也可以写入数据并做保存,pandas最合适的场景应该是数据处理,所以这里就不大材小原创 2021-10-24 20:18:10 · 3206 阅读 · 0 评论 -
python爬虫训练项目1-当当网top500(适合初学者)
这是笔者自己第一次尝试python爬虫,整体框架很早之前就完成了,但一直因为卡在“解析不出来”的困境导致拖了好几天,不过终于在今天茅塞顿开般的解决了。爬虫基本思路:1.用谷歌F12先了解网站的请求方式2.对网页进行请求(requests)3.将返回的数据进行正则表达式解析4.对解析出的数据进行汇总处理并存储到文件中期间遇到的坑1.正则表达式前期做的正则表达式解析时,我是直接复制了该网站的网页元素进行尝试解析,但到后面整体运行时一直没解析出来;后面我发现,requests返回的原创 2021-10-16 21:06:31 · 555 阅读 · 0 评论 -
python爬虫训练项目4-采取多线程爬取
多线程python爬虫下载图片原创 2021-11-23 23:32:57 · 143 阅读 · 0 评论