爬虫
Quantum Creation
为什么要编程?还不是太闲了。
展开
-
异步爬取案例
python异步爬虫,解决await requests问题案例原创 2022-09-22 16:58:43 · 280 阅读 · 1 评论 -
headers 字符串代码转换为字典
实现过程:s4 = '''hdajg:gfafgaghfajhfajfwfgahfahfafga:hafhsgfjakfhwifafwufajskfwhhfajf:faffafhfafhesffu:fahfhfaahfwufaljwfaljhf:fgafgahahfajfwihsfahafahfhfa:hfaffgafjjfahfefhfehfhhfafia:affgafajfj'''list = filter(lambda x:len(x.strip())>0,s4.split('\原创 2021-08-31 10:56:56 · 331 阅读 · 0 评论 -
爬虫爬取百度招聘的python信息------json
import requestsimport csvheaders = { 'user-agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36'}#i,purPage = str(i)来定量爬取for i in range(0,8):原创 2021-08-10 16:41:58 · 277 阅读 · 0 评论 -
lsp篇批量爬取你喜欢的虎牙直播美女图片
1、目的高效爬取图片,联系基本的xpath,以及简单函数,文件存储等。2、逻辑实现运用requests 发起get请求url 得到response_html再解析数据data = etree.HTML(response_html.text)from lxml import etree再用xpath定位想要的地址匹配规则以虎牙直播为例按f12 点击元素选择器element选着图片获得图片位置,上图的img标签中的src data-original 属性为图片地址。gilrs = d原创 2021-08-07 11:38:25 · 471 阅读 · 4 评论 -
selenium淘宝模拟登录4 建立IP池登录
由于本机IP对淘宝访问多次后出发了淘宝反爬机制跳出滑动验证码等等,所以建立一个IP池随机IP地址对淘宝模拟登录某网站免费IP58.209.53.172:62330106.110.91.240:20750114.234.167.236:20693180.124.87.81:20689222.187.164.36:20820113.123.119.218:5004549.82.252.21:20685121.224.106.53:12004119.126.157.59:55201222.1原创 2021-08-03 19:34:05 · 891 阅读 · 3 评论 -
淘宝模拟登录3避开selenium检测以及爬取输入信息的第一页商品信息
1、Google浏览器模拟登录淘宝先下载chromedriver链接:https://pan.baidu.com/s/1YoUCxtmrWXKxcoO9wwZwNA提取码:ulg0配置chromedriver将该文件添加到python.exe chorme.exe 同目录下import randomimport time# 修改代码如下from selenium.webdriver import Chromefrom selenium.webdriver import ChromeO原创 2021-07-29 15:18:17 · 702 阅读 · 0 评论 -
淘宝模拟登录2解决滑动验证问题
由于selenium被淘宝识别,然后跳出滑动验证问题。这里需要添加参数,让淘宝无法检测出selenium。开始以为是代理IP问题后来实验发现不是代理IP问题。对于xpath和其他人不一样着哩可能是浏览器的问题,开始用的火狐,后面还是感觉Google香。代码import randomimport time# 修改代码如下from selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptionsoptions原创 2021-07-28 23:50:23 · 8048 阅读 · 23 评论 -
模拟登录有道翻译
import time #时间模块from bs4 import BeautifulSoup #数据筛选 网页选择器from selenium import webdriver #测试框架from selenium.webdriver.support.ui import WebDriverWait #浏览器等待完成的包#爬虫流程 面向对象class youdao_Infos: #魔术方法 构造方法 def __init__(self): url = 'https:/原创 2021-07-25 20:44:43 · 471 阅读 · 1 评论 -
爬虫模拟登录1 问题版
import time #时间模块from bs4 import BeautifulSoup #数据筛选 网页选择器from selenium import webdriver #测试框架from selenium.webdriver.support.ui import WebDriverWait #浏览器等待完成的包#爬虫流程 面向对象class Taobao_Infos: #魔术方法 构造方法 def __init__(self): url = 'https:/原创 2021-07-25 20:23:39 · 116 阅读 · 0 评论 -
爬虫 有道翻译脚本
import urllibfrom urllib import requesturl = 'http://fanyi.youdao.com/translate?smartresult=dict,rule'header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0' }key = input('n:')formdata原创 2021-07-24 00:29:45 · 214 阅读 · 1 评论 -
爬取武神主宰小说
1.找到想要得到的小说网站https://www.ddxstxt8.com/5_5034/在浏览器的输入框中输入https://www.ddyueshu.com/5_5034/得到网站2.分析网站按F12出现页面布局,找需要内容,source里发现,链接与章节标题3.观察第一章小说得出规律点击第一章链接进入,第一章网页,点击F12得到网页代码,观察信息,可以发现在sources中发现小说内容4.开始购建爬虫框架,从简单深入import reimport requests#头部伪装h原创 2021-07-23 19:53:52 · 3529 阅读 · 5 评论 -
豆瓣top250爬虫笔记
简言:学习了爬虫基础后对爬虫代码理解后进行编程。收获:对于数据类型的了解更加深入,学习了txt文件的存储以及读取摘要:python爬取豆瓣网内容然后进行数据分析编程导入模块import requestsimport re爬虫搭建start = 0result = []headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)原创 2021-05-05 22:54:58 · 109 阅读 · 0 评论 -
豆瓣top250第一页爬取笔记及分析
简介:学习爬虫爬取豆瓣网第一页代码,以及心得分析1导入模块re#导入requests、re模块import requestsimport re2请求与响应,[headers作用](https://blog.csdn.net/u011031422/article/details/77156507?)#请求头headers = { 'Referer': 'https://img3.doubanio.com/dae/accounts/resources/d3e2921/movie/bu原创 2021-05-04 19:35:03 · 267 阅读 · 0 评论