自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Scrapy对接Selenium并模拟登陆

最近查看了之前跟着崔庆才老师的《Python3网络爬虫开发实战》写的代码,第13章使用Scrapy对接Selenium中间件去爬取淘宝商品详情的爬虫不能用了,之前文章如下https://cloud.tencent.com/developer/article/1151835。现在的主要问题是:淘宝加强了反爬虫机制(登陆验证),即搜索商品需要登录。 新版selenium对phantomjs不...

2019-04-19 15:43:07 1331 2

原创 pyspider遇到问题汇总

Q1.ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'domain_controller' instead.A1:pyspdier中用到的wsgidav的版本问题。找到包pyspider\webui\webdav.py文件修改代码,如下:Q2:pyspider的Web预览界面太小...

2019-04-17 14:39:06 329

原创 windows上的mitmproxy详细安装

pip installmitmproxy windows下不支持mitmproxy,只支持mitmdump, mitmweb,启动mitmdump,并指定端口号为8889 修改浏览器的代理,可以是PC,也可以是手机 正常访问网页,这就可以啦。 由于mitmproxy默认不支持https,所以要安装CA证书。在浏览器(可以是手机,也可以是PC)中输入mitm.it,根据平台选择下载。 P...

2019-04-15 14:28:32 5187

原创 ruby 问题汇总

Q1:redis-dump 报错:ERROR (Errno::ENOENT): No such file or directory - ps -o rss= -pA1:解决方法 到ruby安装目录 如下目录:Ruby25-x64/lib/ruby/gems/2.5.0/gems/redis-dump-0.4.0/lib/redis下的dump.rb文件,用记事本打开,将第32行 ps -o...

2019-03-29 22:55:49 269

原创 pandas 遇到问题汇总

Q1:用python3读csv文件,出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0: invalid conA1:文件不是 UTF8 编码的,而系统默认采用 UTF8 解码。解决方法是改为对应的解码方式。用记事本打开文件另存为UTF-8格式即可。Q2:FutureWarning: using ...

2019-03-25 13:41:34 583

原创 爬取淘宝上dota2自走棋糖果利润

最近一直在玩dota2自走棋,就好奇巨鸟多多糖果在淘宝上总共赚了多少钱?就用selenium爬取淘宝上dota2自走棋糖果的售价和销量。只爬了前2页,后面基本都是销量0,就没爬。不算其他税什么的,就单纯用售价*销量来粗略估算利润,最后利润是一千多万,哦吼~好像还是一个月销量吧~遇到的问题:Q1:现在selenium程序会被淘宝识别,搜索时强制转到淘宝账号登录页面A1:用第三方的微博登录...

2019-03-24 18:33:58 772 1

原创 《Python编程:从入门到实践》 django入门 版本问题汇总

《Python编程:从入门到实践》 django入门花了一天时间重新敲了下这个项目,简单回顾了下django的基础内容。把遇到的版本问题都罗列了一下。遇到如下问题:Q1:topic = models.ForeignKey(Topic)TypeError: __init__() missing 1 required positional argument: 'on_delete'A1...

2019-03-22 18:10:23 1946 5

原创 记录总结windows下的mysql安装

最近重装了电脑上mysql,遇到的问题啥的,就顺便记录下吧。。。。mysql官网下载地址:https://dev.mysql.com/downloads/mysql/,我这里选的是mysql-5.7.25 64位 下载好的.zip文件直接解压C盘。在解压的目录C:\mysql-5.7.25下创建一个my.ini文件,内容如下。 [mysql]# 设置mysql客户端默认字符集de...

2019-03-15 17:51:04 101

原创 request保存图片

用requests.get获取要下载的资源,stream=True打开流下载,用于保存图片用with...as...自动关闭流,上下文管理器创建的前提类实现了__enter__() 和 __exit__()这两个方法新版本的request库可以直接用with...as...自动关闭流,而旧版本的request库并没有这2个方法,所以这里可以用contentlib.closing自动为它创建...

2019-03-01 15:49:51 2142 1

转载 爬取百度百科1000个页面数据

代码实现:https://github.com/Tei320/DailyCode/tree/master/baike_spider 自己遇到的问题以及处理方法:Q1:response=urlib.request.urlopen() response.read()多次read为空b''A1:read()后,原response会被清空Q2:使用Python写文件的时候,或者将网络数...

2019-02-16 21:20:08 736

原创 使用adbapi提高访问数据库效率

在某些爬虫项目下,我们需要每次执行一条插入语句,就立即调用commit方法更新数据库,如果爬取时间太长,中途可能被迫中断,这样程序就不能执行close_spider中的commit。但如果在insert_db中直接加入commit,又会使程序执行变得很慢。这里就可以使用Twisted中提供的以异步方式多线程访问数据库的模块adbapi,可以显著提供程序访问数据库的效率。adbapi.Conne...

2018-07-25 11:17:24 3158 2

原创 scrapy输出csv文件数据多空行问题解决

使用scrapy命令行将数据保存为csv文件时,发现csv多空行。百度https://stackoverflow.com/questions/39477662/scrapy-csv-file-has-uniform-empty-rows/43394566#43394566查看源码scrapy.exporters.CsvItemExporter,在io.TextIOWrapper加入参数newlin...

2018-07-04 09:54:25 1722 2

原创 学习随便 Scrapy中间件添加proxy

Scrapy默认环境下,proxy的设置是由中间件scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware控制的,添加代理与之前的添加UserAgent不同,添加UserAgent是继承重写UserAgentMiddleware,需要禁止系统的UserAgentMiddleware,而现在添加代理只是需要在系统的HttpPr...

2018-05-29 15:56:27 1739

原创 学习随笔 Scrapy项目抓取天气预报

关于XPath和CSSpath路径选取可以用打开浏览器F12选中元素点击鼠标右键选取。

2018-05-26 16:11:10 321

原创 学习随笔 Flask用户角色与权限

角色在数据库中的表示class Permission: # 权限常量 FOLLOW = 0x01 # 关注用户 COMMENT = 0x02 # 发表评论 WRITE_ARTICLES = 0x04 # 写文章 MODERATE_COMMENTS =0x08 # 管理他们发表的评价 ADM...

2018-05-14 16:42:56 2869 2

原创 学习随笔 Werkzeug

使用Werkzeug.security 模块中的generate_password_hash(注册用户),check_password_hash(验证用户) 两个函数能够很方便地实现密码散列值的计算。generate_password_hash(password, method=pbkdf2:sha1, salt_length=8):这个函数将 原始密码作为输入,以字符串形式输出密码的散列值, 输...

2018-05-09 16:16:18 579

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除