爬虫
聆听我的召唤,菜鸟进化
这个作者很懒,什么都没留下…
展开
-
爬虫找不到链接?
一、图一图二如图,我想获取这个网页,但是我们在用图一的连接时,我们发现得不到链接,于是,我们进入Network打算刷新看看,结果不显示链接。解决方案:由于这个网页的数据是放在frame里的,所以直接在frame里找链接,如图一的第三个箭头。二、图三如图,我们获取网站时,会遇到下拉刷新的网页,稍微做过爬虫的都是到,上面第一个红箭头肯定不能用,于是于是,我们进入Network打算刷新看看规律,但是显然没有规律怎么办,裂开。方案,打开刷新标签,慢慢找,可能有惊喜。毕竟做反爬手段也很费事。.原创 2021-09-17 16:57:52 · 1921 阅读 · 0 评论 -
爬虫乱码(一)
from lxml import etreefrom pyquery import PyQuery as pqfrom fake_useragent import UserAgentimport timeimport jsonimport requestsimport csvheaders={ 'User-Agent':UserAgent().random }url='http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp原创 2021-08-22 21:55:06 · 102 阅读 · 0 评论 -
Network Preview爬虫笔记
from lxml import etreefrom pyquery import PyQuery as pqimport timeimport jsonimport requestsheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36' }url="原创 2021-08-20 22:27:13 · 425 阅读 · 0 评论 -
爬虫随机头和时间判断
from fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }import datetimedef judgee(timestr): nowTime_str = datetime.datetime.now().strftime('%Y-%m-%d %H:%M') e_time = time.mktime(time.strptime(nowT原创 2021-08-20 21:41:57 · 114 阅读 · 0 评论 -
json文件的读写操作及乱码(包含农业数据爬取)
写文件import jsonimport codecs#解码汉字import csvdata=[{ "问题": "怎样进行小麦病害叶锈病的农业防治?", "方案1:": "农业防治种植抗病品种。增施磷、钾肥,做到氮磷钾合理搭配,增强小麦长势。施用氮肥不要过多、过迟,避免贪青晚熟。麦田要合理灌水,防止大水漫灌,降低田间湿度。南北行种植,提高通风透光能力。"},{ "问题": "小麦病害叶锈病有何防治方法?", "方案1:": "(1)药剂拌种。小麦播前选用种子量0.原创 2021-08-19 21:17:23 · 257 阅读 · 0 评论 -
小说抓取实战
爬小说原创 2022-07-16 17:59:17 · 127 阅读 · 0 评论 -
scrapy 快速下载
快速下载scrapy原创 2022-07-10 14:13:03 · 331 阅读 · 0 评论 -
b站视频链接快速获取
快速获取b站视频数据原创 2022-07-03 17:52:35 · 5380 阅读 · 0 评论 -
高考数据吧
from lxml import etreefrom lxml import etreeimport reimport timeimport jsonimport requestsimport csvimport codecsfrom pyquery import PyQuery as pqfrom mouse import move,clickfrom bs4 import BeautifulSoupimport requestsfrom selenium import webdr原创 2021-11-08 17:13:12 · 45 阅读 · 0 评论 -
高考数据获取
from lxml import etreefrom lxml import etreeimport reimport timeimport jsonimport requestsimport csvimport codecsfrom pyquery import PyQuery as pqfrom mouse import move,clickfrom bs4 import BeautifulSoupimport requestsfrom selenium import webdr原创 2021-11-08 17:11:43 · 90 阅读 · 0 评论 -
selenium案例与证券network
import reimport requestsimport timeimport csvimport randomfrom lxml import etreefrom mouse import move,clickfrom bs4 import BeautifulSoupfrom selenium import webdriverfrom pyquery import PyQuery as pq# from selenium.webdriver.support import expe原创 2021-10-08 19:37:00 · 109 阅读 · 0 评论 -
医院(多线程)
from lxml import etreefrom fake_useragent import UserAgentimport timeimport jsonimport requestsimport csvimport randomimport codecsimport osfrom multiprocessing.dummy import Poolheaders={ 'User-Agent':UserAgent().random }url原创 2021-09-29 22:28:39 · 92 阅读 · 0 评论 -
2021-09-28
在使用 Python 做爬虫的时候,我们需要伪装头部信息骗过网站的防爬策略,Python 中的第三方模块 fake_useragent 就很好的解决了这个问题,它将给我们返回一个随机封装了好的头部信息,我们直接使用即可。但我在使用的过程中遇到了问题,无法返回一个我们需要的值,会报 fake-useragent Maximum amount of retries reached问题。网络上的解决方法大多是下面的代码:ua = UserAgent(use_cache_server=False)ua = U转载 2021-09-28 16:12:45 · 74 阅读 · 0 评论 -
chromedriver.exe更新
查看chrome游览器版本的方法:(1) 打开的Chrome浏览器主界面的地址栏输入网址: chrome://version/(2)访问 http://chromedriver.storage.googleapis.com/index.html 下载对应版本原创 2021-09-26 16:46:42 · 190 阅读 · 0 评论 -
爬虫文件下载
import requestsfrom lxml import etreeimport osimport randomimport timefrom fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }url='http://11.down.ssaefe.xyz:8000/fc/FN4023.zip'load_file = requests.get(url=原创 2021-09-26 16:29:12 · 454 阅读 · 0 评论 -
图片存储直接链接
import requestsfrom lxml import etreeimport osimport randomimport timefrom fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }url='https://chinamarketmx.com/wp-content/uploads/TECAUD63967-300x300.png'img_d原创 2021-09-26 16:18:08 · 122 阅读 · 0 评论 -
图片爬取,乱码处理,随机睡眠(包含惊喜)
进入网站,各种图片自己根据爱好选取import requestsfrom lxml import etreeimport osimport randomimport timefrom fake_useragent import UserAgentheaders={ 'User-Agent':UserAgent().random }for i in range(1,40): url = 'https://pic.netbian.com/4kmei原创 2021-08-25 19:33:03 · 99 阅读 · 0 评论 -
安居客二手房
from lxml import etreefrom fake_useragent import UserAgentimport timeimport jsonimport requestsimport csvimport randomheaders={ 'User-Agent':UserAgent().random }# w=["小区名称","单价","物业类型","物业费","总建面积","总户数","竣工时间","容积率","绿化率","开发原创 2021-08-24 21:47:07 · 179 阅读 · 0 评论 -
君子协议测试
def caution(homepage, aim_url): from urllib.robotparser import RobotFileParser from urllib.request import urlopen rp = RobotFileParser() url_robots = homepage + '/robots.txt' rp.parse(urlopen(url_robots).read().decode('utf-8').split('\n')) res = rp.c原创 2021-08-23 09:17:39 · 86 阅读 · 0 评论 -
构建ip池
from lxml import etreefrom fake_useragent import UserAgentimport timeimport jsonimport requestsimport csvdef check_ip(li): headers={ 'User-Agent': UserAgent().random } ip_ok=[] for l in li: try:原创 2021-08-21 21:30:43 · 137 阅读 · 0 评论 -
python中报错“json.decoder.JSONDecodeError: Expecting value:“的解决
python中报错"json.decoder.JSONDecodeError: Expecting value:"的解决1,如果爬虫时忘记加headers会错"json.decoder.JSONDecodeError: Expecting value:"2,数据格式里string类型的数据要用双引号’’ ‘’,而不能用单引号’ '。3,{“foo”: “bar”,“egg”: “spam”,}这样的字符串用 json.loads 也是会抛出 JSONDecodeError 的:JSONDe原创 2021-03-09 01:04:56 · 13063 阅读 · 0 评论 -
爬虫入门(二)(实战1)
就现在开始我们一般用requests模块进行爬虫,就是模拟浏览器发出请求使用流程:1,指定url链接2,发起请求3,获取响应数据4,持久化存储实战1:爬取搜狗首页的页面数据左上角的链接就是url链接,然后代码如下#!/usr/bin/env python # -*- coding:utf-8 -*-import requestsif __name__ == "__main__": #step_1:指定url url = 'https://www.sogou.com原创 2021-02-04 16:27:35 · 69 阅读 · 0 评论 -
爬虫入门(一)
https://b23.tv/DLPEVr(b站课程视频链接)Let’ go1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源…2.你是否在节假日出行高峰的时候,想快速抢购火车票成功…3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品…什么是爬虫:- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。-爬虫究竟是合法还是违法的?在法律中是不被禁止具有违法风险善意爬虫 恶意爬虫之分爬虫带来的风险可以体现在如下2方面:- 爬虫干扰原创 2021-02-04 15:38:38 · 98 阅读 · 0 评论