爬虫
文章平均质量分 75
主要以selenium为主,lxml request为辅
无情无疫
个人学习博客,
目前方向:后端(python) + 前端(vue + elementUi)。
展开
-
教你爬取博客之星排行榜(selenium + requests )
爬取博客之星准备要爬取的页面及链接使用xpath定位元素完整代码将带tr td的内容粘贴过来准备心血来潮要爬取博客之星排行榜,话不多说 整。本次爬虫使用的是selenium,插件工具使用的是xpath_helper。要爬取的页面及链接https://bss.csdn.net/m/topic/blog_star2020使用xpath定位元素完整代码from selenium import webdriverdriver = webdriver.Chrome()driver.im原创 2021-01-14 10:02:12 · 845 阅读 · 3 评论 -
selenium 手把手教你爬取博客所有文章的标题和链接
爬取博客所有文章做一个目录前言首先 进入博客接下来 定位并分析xpathcopy xpathcopy到的xpath语句 ctrl+v粘到xpath-helper 插件, 发现定位到一个,但是我们想要该页的全部文章经给分析发现文章不在同一div标签内, 所以//*[@id="articleMeList-blog"]/div[2]/div[1]/h4/a中的1是第一篇,去掉就是所有。上代码效果前言今天想给自己博客搞个目录 方便查看一些,但总不能去打开一篇文章复制一下链接吧,所以就想到用爬虫 爬取标题和链接,原创 2020-11-20 11:19:18 · 1271 阅读 · 0 评论 -
python保存爬虫下载的图片和视频
本次是在django中完成静态文件目录拼接路径图片路径image=os.path.join(STATICFILES_DIRS[0],"audio")视频路径l_mp4 = os.path.join(STATICFILES_DIRS[0],"video")①将下载的图片 保存进audio文件内imga = requests.get(图片的链接)image 是刚才拼接的路径 ...原创 2019-06-22 11:34:24 · 3720 阅读 · 1 评论 -
selenium + 超级鹰 识别验证码自动登录
登录界面如下爬虫代码from selenium import webdriverimport time,random, re, osfrom test_chaojiying import Chaojiying_Client # 导入超级鹰工具类from PIL import Imagedriver = webdriver.Chrome() #启动谷歌浏览器driver.implicitly_wait(10)原创 2020-09-29 17:47:54 · 1187 阅读 · 4 评论 -
python + selenium 爬取 NBA 存入mongo数据库
导包from selenium import webdriver启动谷歌浏览器driver=webdriver.Chrome()要爬取的网址driver.get(url=‘https://www.basketball-reference.com/leagues/NBA_2019.html’)driver.implicitly_wait(10) #隐式等待 等页面全部加载再爬取信息...原创 2019-05-05 14:04:38 · 583 阅读 · 0 评论 -
python + selenium 爬取猎聘招聘网
爬取职位标题 及 标题链接代码块from selenium import webdriver启动谷歌浏览器driver=webdriver.Chrome()driver.implicitly_wait(10) # 隐式等待time.sleep(3)爬取猎聘网driver.get(url=‘https://www.liepin.com/’)定位输入框 并输入 pythondri...原创 2019-05-27 09:19:47 · 1272 阅读 · 0 评论 -
python + selenium 爬取Boss直聘
导入需要用到的模块from selenium import webdriverimport timeimport randomimport pandas as pd启动谷歌浏览器driver=webdriver.Chrome()隐式等待(等待页面元素加载完毕)driver.implicitly_wait(10)防止被识别, 设置随机等待秒数rand_seconds = rand...原创 2019-06-05 20:18:08 · 2069 阅读 · 0 评论 -
爬虫数据入库(mongo和mysql)
①入mongo库导入模块from pymongo import MongoClient连接mongoconn=MongoClient(host=‘127.0.0.1’,port=27017)连接数据库db=conn[‘python’]授权db.authenticate(name=’’,password=’’,source=‘admin’)连接集合coll=db[‘集合名’]p...原创 2019-06-03 12:25:13 · 657 阅读 · 0 评论 -
python+selenium 使用下拉滚动 爬取豆瓣
分析网页第一步 使用xpath定位元素 显示定位到40个元素整个页面 没有分页 想要获取更多数据 想要下拉才能获取通过手动下拉之后第二次下拉 获取到了更多数据分析后 我们可以使用selenium中的下拉方法来完成此次抓取源代码from selenium import webdriverimport timeimport reimport randomdriver...原创 2019-06-11 13:28:43 · 1046 阅读 · 0 评论