爬虫
昵称很烧脑
这个作者很懒,什么都没留下…
展开
-
Python多线程爬虫之Queue
Python多线程爬虫实现多线程爬虫为什么要爬虫使用多线程?为了提高抓取数据效率有些网站对访问速度有限制, 这样网站可以可以开启多个线程, 每一个线程使用一个代理,去提取页面的一部分内容1、多线程的方法使用在python3中,主线程主进程结束,子线程,子进程不会结束 为了能够让主线程回收子线程,可以把子线程设置为守护线程,即该线程不重要,主线程结束,子线程结束t1 = threading.Thread(targe=func,args=(,))t1.setDaemon(True)t1.原创 2020-06-13 16:52:18 · 939 阅读 · 0 评论 -
爬取淘宝商品信息
import requestsimport redef getHTMLText(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36", "cookie": "t=925dee34e81f413e4fef7a69c7f090原创 2020-05-11 18:01:56 · 894 阅读 · 0 评论 -
用Python爬取《后浪》弹幕,绘制生成专属词云,看看“后浪们”都在评论些什么
请查收,最近B站献给新一代的青年宣言片。国家一级演员何冰走上舞台,以青年宣言《后浪》为词,认可、赞美与寄语年轻一代。在UP主们的青春混剪中,属于年轻人的光芒正在闪耀。“你们有幸 遇见这样的时代 但时代更有幸 遇见这样的你们”用Python爬取《后浪》弹幕,看看“后浪”都在评论些什么?一、找到评论链接进入B站《后浪》播放页面,按F12键后,刷新页面。评论链接在红色标记下对应的包,蓝线上方Request URL即为评论链接https://api.bilibili.com/x/v1/dm/list.s原创 2020-05-10 18:25:09 · 3304 阅读 · 23 评论 -
Python爬取豆瓣电影TOP250改进
在本篇博客中,我们将使用requests+正则表达式(re)来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号、片名、导演、编剧、主演、类型、制作国家/地区、语言、上映日期、片长、又名、豆瓣评分和剧情简介等内容。打开豆瓣Top250,分析URL的变化:发现Top250榜总共包含10页,每页25部电影,并且每一页的URL都是有规律的,如第2页的URL是https://movie.douban....原创 2020-04-16 09:42:54 · 1944 阅读 · 0 评论 -
Python爬取豆瓣电影 Top 250
爬虫原创 2020-04-16 10:42:10 · 725 阅读 · 0 评论