22_爬虫
码小匠---千少
这个作者很懒,什么都没留下…
展开
-
scrapy发送post请求的两种方法,和scrapy返回400的处理方式
https://blog.csdn.net/weixin_38819889/article/details/109106942https://www.cnblogs.com/ceason/p/13935292.html方法一import scrapyclass FySpider(scrapy.Spider): name = 'fy' # allowed_domains = ['www.baidu.com'] start_urls = ['https://fanyi.baid转载 2021-01-04 19:28:20 · 664 阅读 · 2 评论 -
python 解析zip包 zip包包含xls,下载zip包的内容,直接读取为pandas DataFrame数据框
zip包包含xls,下载zip包的内容,直接读取为pandas DataFrame数据框分别是ZipFile和ZipInfo两个类的基本操作:python对zip流进行压缩和解压一个案例看机器学习建模基本过程zip包结构xxx.zip --abc (文件夹) --- 1.xls --- 2.xls# -*- coding: utf-8 -*-"""@Softwhare:win10 Python 3.6.3 |Anaconda, Inc.| (default, Oct 1原创 2020-09-24 20:56:11 · 1001 阅读 · 0 评论 -
scrapy.cfg scrapy启用不同的配置文件settings来区分生产和本地环境
scrapy 用py 启动# -*- coding: utf-8 -*-"""@Softwhare:win10 Python 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 03:27:45) [MSC v.1900 64 bit (AMD64)] on win32@IDE--Env : PyCharm--@Time : 2020/7/29 15:49@Author : DELL--bob@connect : xxxxx@xx.com原创 2020-08-08 16:07:33 · 1823 阅读 · 0 评论 -
代理ip池-scrapy
代理ip池-scrapyfrom scrapy import signalsimport scrapyfrom scrapy.downloadermiddlewares.useragent import UserAgentMiddlewarefrom scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddlewareimport randomclass MyHttpProxyMiddleware(HttpProxyMiddlewa原创 2020-08-04 16:04:14 · 713 阅读 · 0 评论 -
windows 执行shell命令,控制python运行
cmder,每个python,调用一个cmder,然后执行hide on tsa每个cmder,重命名为程序名原创 2020-04-15 15:04:15 · 663 阅读 · 0 评论 -
nohup,和& 后台挂起区别和windows下执行linux命令
#!/bin/shcount=`ps -ef |grep diagnostic_analysis.py |grep -v "grep" |wc -l`echo $countif [ 0 == $count ];then # work_path=$(dirname $(readlink -f $0)) # cd ${work_path} # source $VIRTUA...原创 2020-04-15 10:03:00 · 2082 阅读 · 0 评论 -
解决 'chromedriver' executable needs to be in PATH.'报错或Message: 'phantomjs' executable needs to be in
解决 ‘chromedriver’ executable needs to be in PATH.'报错Message: ‘phantomjs’ executable needs to be in PATH.把exe程序拷贝到运行python的根目录下如:原创 2020-04-14 09:43:43 · 363 阅读 · 0 评论 -
fiddler安装及简单使用Fiddler抓取手机,微信小程序
https://blog.csdn.net/BGONE/article/details/93007613fiddler安装及简单使用转载 2020-03-26 10:29:56 · 1265 阅读 · 0 评论 -
抓取加密ts视频,并合并转成MP4
# -*- coding:utf-8 -*-import osimport randomimport sysfrom imp import reloadimport requestsimport datetimefrom Crypto.Cipher import AESfrom binascii import b2a_hex, a2b_hex# reload(sys)# ...原创 2020-02-21 10:56:09 · 4983 阅读 · 0 评论 -
Scrapy爬虫框架---CrawlSpider类
https://www.cnblogs.com/518894-lu/p/9171755.html转载 2019-08-28 22:31:30 · 127 阅读 · 0 评论 -
爬取豆瓣top250 -Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理
error: nothing to repeat at position 0 原 Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理 ...转载 2019-08-28 18:06:19 · 414 阅读 · 0 评论 -
linux python3 安装scrapy 后提示 -bash: scrapy: 未找到命令
linux python3 安装scrapy 后提示 -bash: scrapy: 未找到命令https://blog.csdn.net/dangsh_/article/details/79613210转载 2019-08-27 23:37:01 · 320 阅读 · 0 评论 -
携程滑块,点选文字识别
code_datawhale05_xiecheng.py携程滑块,点选文字识别from selenium import webdriverfrom selenium.webdriver import ActionChainsimport timeimport base64from PIL import Imagefrom aip import AipOcr"""https:/...原创 2019-08-24 20:54:26 · 3182 阅读 · 0 评论 -
datawhale_爬虫_spider |第八期
文章目录task01任务预览codetask01任务预览1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。3.了解什么是请求头,如何添加请求头。4.学习什么是正则表达式并尝试一些正则表达式并进行匹配。5...原创 2019-08-19 10:59:02 · 1206 阅读 · 0 评论