爬虫
文章平均质量分 65
Dave_L
这个作者很懒,什么都没留下…
展开
-
python crawler - selenium + xpath爬取用户详情页信息 + 分类存储excel
爬取网站地址明显看到是控制具体页数的,得到每页的信息;但是动态加载数据的,没法直接抓网页采用selenium + 枚举id的方式,枚举所有用户详情页(不得已最后根据是否售出存到对应sheet中爬取网站链接这个很简单,没有js动态加载,完全能通过接口收到所有想要的角色信息,直接访问用户详情页都省了。直接解析返回数据json:...原创 2022-07-12 17:59:58 · 830 阅读 · 0 评论 -
python crawler - 使用代理增加博客文章访问量
import re , random , requests , loggingfrom lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoollogging.basicConfig(level=logging.DEBUG)TIME_OUT = 15proxies = []header = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64原创 2020-07-02 12:03:02 · 153 阅读 · 0 评论 -
python crawler - Session模拟表单登陆并下载登录后用户头像demo
要登录的网站:https://www.1point3acres.com/bbs/找到form中的action查看提交表单的目的地址:https://www.1point3acres.com/bbs/member.php?mod=logging&action=login&loginsubmit=yes&infloat=yes&lssubmit=yes&inajax=1登录后,查看表单数据作为提交参数:最后就是查看头像的位置:利用BeautifulSoup原创 2020-06-28 11:54:21 · 358 阅读 · 1 评论 -
使用selenium模拟浏览器进行数据抓取+搜索指定关键词+下拉滚动demo+selenium等待机制(Chrome Browser
0.安装selenium + Chrome Driver安装selenium:pip install selenium安装Chrome Driver:下载:http://chromedriver.storage.googleapis.com/index.html版本要对应(chrome://version查看版本)将chromedriver.exe 添加到用户环境变量1.使用selenium模拟浏览器操作demofrom selenium import webdriverimpo原创 2020-06-27 18:43:59 · 996 阅读 · 0 评论 -
python crawler -利用XPath获取B站推荐视频封面
推荐页封面抓取不需要考虑JS,直接用XPath定位<a>即可。推荐页url:https://www.bilibili.com/list/recommend/1.html翻到x页就是x.html抓取封面,定位到<img>中的src,获取这个src访问下载到本地就行了。用XPath获取src路径:"//div[@class='zr_recomd']/ul/li/div/a/img/@src"完整代码:# 抓取B站推荐页视频封面import requestsfrom原创 2020-06-27 11:01:49 · 646 阅读 · 0 评论