python爬虫
铁憨憨0304
这个作者很懒,什么都没留下…
展开
-
python中简单使用sqlit3数据库
python+sqlit3建表插入数据原创 2022-10-09 14:49:56 · 439 阅读 · 1 评论 -
python中hmac算法+sha512
python实现Hmac加密原创 2022-10-09 09:12:59 · 1147 阅读 · 0 评论 -
python爬虫遇见needs to review the security of your connection before proceeding绕过 Cloudflare
clodflare,绕过Ray id原创 2022-09-08 16:58:53 · 9793 阅读 · 7 评论 -
selenium无头,防检测
selenium chrome无头,被注释掉了selenium chrome 88后版本,防检测原创 2022-07-21 22:09:52 · 420 阅读 · 0 评论 -
msdge浏览器驱动测试
msedge驱动,无界面+不出现自动测试字样from msedge.selenium_tools import EdgeOptionsfrom msedge.selenium_tools import Edge#浏览器配置edge_options = EdgeOptions()# 设置无界面模式,也可以添加其它设置edge_options.use_chromium = Trueedge_options.add_argument('headless')#不出现自动测试字样edge_opti原创 2021-12-24 16:51:26 · 565 阅读 · 0 评论 -
谷歌浏览器驱动测试
selenium驱动谷歌浏览器,ip+headless+不出现自动测试字样import timefrom selenium import webdriverfrom selenium.webdriver import ChromeOptionsfrom selenium.webdriver.chrome.options import Optionsimport requestsdef get_proxy(): proxy = requests.get("http://127.0.0原创 2021-12-24 16:48:06 · 755 阅读 · 0 评论 -
2021年挖掘猫眼专业版电影票房数据
概述自己看着玩玩,如有侵权,请联系我,立刻删除爬取关键点1.猫眼票房字体动态加密,需要破解2.截止今日20210101-20211214,有350天左右,需要ip代理池,Proxypool,代理池搭建链接如下:通过github搭建代理池3.需要构造浏览器头段,user-agent随机生成浏览器4.猫眼专业版,中间有几天浏览器页面看不到,采用后面单独处理的方法5.主要采用selenium+pyquer+request+无头Edge的方法提前告知缺点:爬取350页需要2小时,主要是留给浏览原创 2021-12-15 11:24:14 · 3986 阅读 · 4 评论 -
随机浏览器标识User-Agent
安装库pip3 install fake_useragent复制ua.json,文件{"browsers": {"chrome": ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like原创 2021-12-06 17:05:38 · 613 阅读 · 0 评论 -
IP代理使用方式
安装好proxy代理池后,进入文件夹cmd命令:python proxyPool.py schedule #开一个cmd窗口python proxyPool.py server #再开一个cmd窗口#使用IP代理池接口#5010:settings中设置的监听端口,不是Redis服务的端口#get:直接获取一个可用代理#count:获取代理池中可用dialing的数量def get_proxy(): proxy=requests.get("http://127.0.0.1:原创 2021-12-06 17:00:40 · 2488 阅读 · 0 评论 -
request+ip代理+User-agent爬取青蛇劫起的评论220条
import pandas as pdimport requestsfrom bs4 import BeautifulSoupimport timeimport random#随机生成User_agent,浏览器标识def get_ua(): first_num = random.randint(55, 76) third_num = random.randint(0, 3800) fourth_num = random.randint(0, 140) os_t原创 2021-12-06 16:46:55 · 1832 阅读 · 0 评论 -
selenium+pyquery爬取亚马逊ipad商品前10页
爬取亚马逊商品ipad商品描述评级售价优惠导入所需要的包文件格式.ipynb模拟浏览器:webdriver,安装Edge()驱动解析库:pyquery时间模块:timepandasimport seleniumfrom selenium import webdriverfrom pyquery import PyQuery as pqfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.原创 2021-11-05 17:22:21 · 314 阅读 · 0 评论 -
selenium+pyquery爬取《鱿鱼游戏》评论2000+条
IMDB网址爬取《鱿鱼游戏》的全部评论评论排名评论标题id评论时间评论内容导入所需要的包selenium:模拟浏览器,这里使用的是Edge浏览器,需要安装Edge浏览器驱动解析库:PyQuery保存数据:pandas,保存为csv文件from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by imp原创 2021-11-01 11:43:35 · 7782 阅读 · 0 评论 -
爬取豆瓣TOP250-避免反爬虫(2021-10-09)
前言不适合没有爬虫基础的,自己写着玩玩,其中的IP地址,也是爬取下来的,实时在变注意:没有对IP地址进行校验爬取豆瓣电影,豆瓣电影现在都有反爬虫机制,我们采用2种方法:不同浏览器标识:User_agent(模拟不同的浏览器)不同的IP地址:proxies(防止IP地址被封)爬取间隔2秒:防止网页扫描频繁操作导入需要的库import pandas as pdimport requestsfrom bs4 import BeautifulSoupimport randomimport原创 2021-10-09 16:29:20 · 6186 阅读 · 2 评论