爬虫
文章平均质量分 67
飞锡2024
算法工程师,paddle/cv girl
展开
-
pyppeteer windows服务器部署
1.下载64位python3.7官网 https://www.python.org/downloads/release/python-370/(较慢)其他:https://www.pcsoft.com.cn/soft/177699.html2.python -m pip install --upgrade pippip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple包pandaslx原创 2022-02-24 09:44:39 · 982 阅读 · 0 评论 -
JavaScript与node.js简单介绍
1.数据类型基本(值)类型:string number(任意数字) boolean undefined null对象(引用)类型:Object(任意对象) Function(可执行对象) Array(数值对象)2.判断typeof返回数据类型的字符串表达 可以判断undefined/数值/字符串/布尔值,不可以判断null object arrayinstanceof:判断对象具体类型=== 判断undefinied、nullvar a;typeof a === 'undefined'原创 2022-02-20 18:15:50 · 1314 阅读 · 0 评论 -
爬虫多线程实践
参考:Python threading实现多线程 原理 基础篇python 多线程爬取网站图片(详解)【Python】threading控制线程的数量1.读取url列表,读取文件夹已经存在文件个数,得到未爬虫列表2.多线程爬取 、存储不固定线程数量import timeimport datetimeimport osimport requestsimport threadingimport pandas as pdfrom tqdm import tqdmfrom que原创 2022-02-19 17:21:21 · 435 阅读 · 0 评论 -
爬虫数据写入到文件 与入库
保存数据1.先判断文件是否存在2.1存在则先读再拼接,再存储2.2不存在直接读取csvpd.read_csv('.csv')data.to_csv(index=False)jsonimport jsondef save_to_json(json_data_list): if os.path.exists("selinum_data_test.json"): # 保存文件 with open("selinum_data_test.json", "r", encod原创 2022-02-19 16:30:36 · 871 阅读 · 0 评论 -
爬虫报错记录
ConnectionError1.IP被封 降低爬取频率,更改useragent2.在headers字典中添加Connection键,并把它的值修改为closeConnection was refused by other side: 10061: 由于目标计算机积极拒绝,无法连接原因1.服务器发现你在爬,并且限制了2.代理ip转发太慢最好解析一下cookie和请求参数,跟请求头无关twisted.webnewclient.ResponseNeverReceived与目标网站的连接丢失,无原创 2022-02-19 14:46:37 · 1197 阅读 · 0 评论 -
scrapy 切换ip和useragent
scrapy middleware设置,注意设置setting文件DOWNLOADER_MIDDLEWARES = { '爬虫名字.middlewares.RandomUserAgentMiddlware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,}from scrapy import signalsfrom fake_useragent import UserAgent原创 2022-02-19 14:45:23 · 1737 阅读 · 0 评论 -
Puppeteer 爬虫框架使用
Puppeteerpyppeteer官方文档Puppeteer教程Puppeteer 是 Google 基于 Node.js 开发的工具,调用 Chrome 的 API,通过 JavaScript 代码来操纵 Chrome 完成一些操作,用于网络爬虫、Web 程序自动测试等,其 API 极其完善,功能非常强大。pyppeteer 介绍Pyppeteer 是一款非常高效的 web 自动化测试工具,是 Puppeteer 的 Python 版本。pyppeteer 使用了 Python 异步协程库原创 2022-02-19 14:36:17 · 6977 阅读 · 0 评论 -
playwright介绍和实践
介绍参考:playwright gitlab地址使用说明简介Microsoft 于2020 年 1 月 31 日发布Playwright的第一个公共版本时。playwright-python,是一款基于python的自动化测试工具,可以通过录制功能自动生成测试脚本;Playwright是一个强大的Python库,仅用一个API即可自动执行Chromium、Firefox、WebKit(Safari )等主流浏览器自动化操作,并同时支持以无头模式、有头模式运行;优点跨浏览器,支持Chrome原创 2022-02-19 12:05:15 · 2148 阅读 · 0 评论 -
无头浏览器介绍和对比
默认情况下使用selenium或者waitr webdriver启动浏览器,浏览器中保存的cookie是不可访问的。原创 2022-02-19 08:15:17 · 6098 阅读 · 0 评论 -
selenium操作firefox
下载浏览器下载链接:https://ftp.mozilla.org/pub/firefox/releases/79.0为版本号,可以替换https://download-installer.cdn.mozilla.net/pub/firefox/releases/79.0/win64/zh-CN/Firefox%20Setup%2079.0.exe设置不更新:https://jingyan.baidu.com/article/da1091fb712f5f027949d671.html下载驱动ht原创 2022-01-27 13:12:59 · 9370 阅读 · 0 评论 -
request简单使用与报错记录
使用方法有get和post请求response = requests.post(url="", headers={}, timeout=180, json={})response = requests.get(url="", headers={}, timeout=180, json={})原创 2021-08-26 15:49:04 · 568 阅读 · 0 评论 -
scrapy介绍与实践
常用命令参考:https://www.osgeo.cn/scrapy/topics/commands.htmlhttp://www.scrapyd.cn/doc/181.htmlscrapy startproject(创建项目)scrapy crawl XX(运行XX蜘蛛)scrapy shell http://www.scrapyd.cn(调试网址为http://www.scrapyd.cn的网站),支持的选项:–spider=SPIDER :绕过Spider自动检测并强制使用特定Sp原创 2021-08-12 17:40:38 · 148 阅读 · 0 评论 -
scrapy多个爬虫同时运行
运行爬虫import datetime as dt#同时爬取from scrapy.crawler import CrawlerProcessfrom scrapy.utils.project import get_project_settingsfile_name_A="爬虫A"+dt.datetime.now().strftime('%Y-%m-%d') +".json"file_name_B="爬虫B"+dt.datetime.now().strftime('%Y-%m-%d') +".原创 2021-08-16 15:51:02 · 513 阅读 · 0 评论 -
selinum介绍与实践
介绍selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器安装1.pip install selenium2.安装浏览器对应版本的driverchrome:https://liushilive.github.io/github_selenium_drivers/md/Chrome.html(原创 2021-08-21 20:23:09 · 1256 阅读 · 0 评论