![](https://img-blog.csdnimg.cn/20191005160729604.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫
托尼stark
你能从现在开始改变,也可以一成不变。
展开
-
爬虫基本知识及案例
爬虫概念: 网络爬虫,网页蜘蛛,网页机器人,就是模拟客户端发送网络请求,接收请求的响应,按照一定规则,自动地抓取互联网信息的程序。(原则上,只要浏览器(用户)能做的事情,爬虫都能做。) 爬虫分类: 通用爬虫 :通常指搜索引擎和大型Web提供服务商的爬虫。 聚集爬虫:针对特定的网站,定向的获取某方面数据的爬虫。 1.累积式爬虫:从开始到结束,不断爬取,过程中会进行去重操作。 2.增量式爬虫:已下载网...原创 2019-07-20 23:12:57 · 448 阅读 · 0 评论 -
爬取百度贴吧内某吧指定页数的html页面
爬取百度贴吧内某吧指定页数的html页面 首先创建文件夹tieba,代码使用面向对象的思想进行封装,测试爬取的页数为前10页, 代码如下: import requests import time import threading class TieBa(object): def __init__(self): self.name=input('请输入贴吧名字:'...原创 2019-07-20 23:32:03 · 573 阅读 · 0 评论 -
使用selenium,xpath,线程池爬取斗鱼主播信息
使用xpath,线程池爬取斗鱼主播信息: 主要爬取主播昵称,直播内容分类,房间名称,房间号以及人气,共爬取了大概110多页数据,大概15000条,保存在txt文本中, import time from selenium import webdriver from multiprocessing.dummy import Pool #导入线程池 from lxml import etree...原创 2019-07-31 20:02:21 · 602 阅读 · 0 评论