爬虫
小枫Geek
毕里毕里UID:349567482
展开
-
requests_模拟搜狗翻译
解析url:首先打开网页,按F12,接着点击XHR后刷新一下网页;接着就在搜索框里输入我们要搜索的单词,待会就会自动刷新suggv3的数据包;在headers里可以看到我们要请求的url,还有它的请求方法是-post,数据类型是json解析数据:在Payload就可以看到我们请求的数据参数,根据这个参数,修改列表text的值,就可以实现我们想要搜索的内容!原创 2022-10-20 15:37:30 · 690 阅读 · 0 评论 -
Python_哔哩哔哩弹幕可视化
输入B站视频oid号,就可以看到相应视频上的弹幕。有了B站弹幕API接口,只需要通过解析数据,提取弹幕文字。原创 2022-09-19 18:20:11 · 1037 阅读 · 0 评论 -
Python_豆瓣电影&保存excel
Python_豆瓣电影&保存excel。原创 2022-09-18 11:59:11 · 255 阅读 · 0 评论 -
Python_微博热搜&保存数据库
本文章通过两种保存模式csv文件、Mysql数据库实现效果如图Mysql数据库。原创 2022-07-30 15:54:41 · 910 阅读 · 0 评论 -
Python_Crawl_spider对招聘网进行爬取
)函数写sql语句,后返回插入语句和参数(两个参数,接着执行mysql语句将数据保存。对相应的网页进行指定爬取,接着回调方法。后异步导入mysql库。原创 2022-07-21 22:32:01 · 326 阅读 · 0 评论 -
Python_模拟登录QQ邮箱&保存cookies
说明该程序用于模拟登录QQ邮箱。在首次模拟登录后,将页面的cookies保存,为下次直接登录做准备。原创 2022-07-16 14:38:13 · 952 阅读 · 4 评论 -
Python_scrapy(知乎问答爬取
***本文章为个人记录***目录一、模拟登录知乎二、提取知乎question页面url三、提取question页面具体数据四、提取answer页面具体数据五、items.py的编写六、pipelines的编写七、Mysql数据库存储结果(第一次运行程序)先模拟登录->保存cookie (其次运行程序)->运行已保存的cookie 模拟登录时没有做验证码处理,所以延时10秒手动通过验证码进行登录。登录后再将知乎账号数据cookie保存起来,为下次爬取浏览器直接使用(下次使用时不需要再进行模拟登录原创 2022-07-02 00:18:45 · 1610 阅读 · 0 评论 -
Python_爬虫数据存入数据库(超详细过程
目录一、新建项目二、程序的编写三、数据的爬取1.在cmd窗口输入scrapy startproject [项目名称] 创建爬虫项目接着创建爬虫文件,scrapy genspider [爬虫名字] [爬虫域名]打开pycharm项目,就可以看到生成的cblog.py文件1.在项目下新建main.py,写入以下代码,方便后续项目调试main.py2.编写爬虫程序kblog.py3.在items.py文件中创建items函数与爬取数据对应items.py4.在数据库中新建数据表MyArticle原创 2022-06-17 22:48:48 · 10182 阅读 · 1 评论 -
Selenium-12306模拟登录(附模拟滑动验证码)
源码:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver import ActionChains # 动作链# 实现规避检测from selenium.webdriver import ChromeOptionsimport timedef login(): driver.find_element(By.ID, 'J-userName原创 2022-03-19 22:58:10 · 460 阅读 · 0 评论 -
Selenium-12306自动抢票
源码:from selenium import webdriverfrom selenium.webdriver.common.by import By # driver.find_element(By.ID,'query_ticket')from selenium.webdriver.support.wait import WebDriverWait # 显示等待from selenium.webdriver import ActionChains # 动作链from seleniu.原创 2022-03-19 22:51:11 · 978 阅读 · 0 评论 -
selenium-模拟登录QQ空间(附模拟滑动验证码)
from selenium import webdriverfrom time import sleepfrom selenium.webdriver import ActionChains # 动物链from selenium.webdriver.common.by import By # find_element(By.xx,'xx')from selenium.webdriver import ChromeOptions # 规避检测def login(): # 切换到登录标签.原创 2022-03-19 22:36:57 · 1347 阅读 · 0 评论 -
Python—爬取豆瓣电影排行榜
import requestsimport jsonfrom xlutils.copy import copyimport xlrdimport xlwtheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}url = 'https://movie.do.原创 2022-03-15 11:24:27 · 2001 阅读 · 2 评论 -
Python—协程的应用
greenlet 模块实现协程:from greenlet import greenletdef fun1(): print(1) #2 gr2.switch()#3 print(2) #6 gr2.switch()#7 passdef fun2(): print(3) #4 gr1.switch()#5 print(4) #8 passgr1=greenlet(fun1)gr2=greenl原创 2022-03-09 12:03:30 · 511 阅读 · 0 评论 -
Python—爬取简历模板案例(Xpath方法)
源码:import requestsimport osfrom lxml import etreeif not os.path.exists('./简历模板'): os.mkdir('./简历模板')headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36原创 2022-02-28 19:46:55 · 1042 阅读 · 0 评论 -
Python—爬取全国城市名称案例(Xpath方法)
源码:import requestsimport osfrom lxml import etreeheaders={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}url='https://www.aqistudy.cn/historydata/'response.原创 2022-02-27 17:21:11 · 913 阅读 · 0 评论 -
Python—爬取小说案例(bs4方法)
一、源码:import requestsfrom bs4 import BeautifulSoup#UA伪装headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}url='这里自己输入你的url(因版权原因)'page_text=requests.get(原创 2022-02-27 16:42:00 · 1046 阅读 · 0 评论 -
Python_爬取文本内容中文乱码解决方案
方案一(手动设定响应数据的编码格式):url='输入url'response=requests.get(url=url,headers=headers)手动设定响应数据的编码格式response.encoding='gbk'page_text=response.text方案二(通用处理中文乱码的解决方案):img_name=li.xpath('./a/img/@alt')[0]+'.jpg'#通用处理中文乱码的解决方案img_name=img_name.encode('iso-8原创 2022-02-27 16:23:54 · 819 阅读 · 0 评论 -
Python—爬取4k图片案例(Xpath方法)
源码:import requestsimport osfrom lxml import etree#创建一个文件夹if not os.path.exists('./4k图片'): os.mkdir('./4k图片')headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safar原创 2022-02-27 16:10:45 · 521 阅读 · 0 评论 -
Python—爬取信息案例(Xpath方法)
案例:爬取某二手房信息Xpath实例化一个etree对象两种方法:from lxml import etree-1.将-本地的html文档中-的源码数据加载到etree对象中: etree.parse(filePath)-2.可以将从-互联网-上获取的源码数据加载到该对象中: etree.HTML('page_text')- xpath表达式:- /:表示的是从根节点开始定位,表示的是一个层级- //:表示的是多个层级;或可以表示从任意位置开...原创 2022-02-27 15:04:24 · 696 阅读 · 0 评论