自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 win10连接远程服务器

在cmd中输入mstsc其中 本地资源 选项卡 配置要上传服务器的文件如果遇到问题,则进行以下操作1.运行regedit,打开注册表2.找文件夹路径:\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Policies\System\CredSSP\Parameters正常情况下,文件只显示到System,...

2019-05-31 14:25:32 378

原创 selenium滑动验证

半年多没发过博客了,这段时间也搞了很多东西,也算是成长了那么一丢丢。今天就来聊一下关于爬虫滑动验证。 这段时间搞某航空网站,查询时候,会让登陆,点击登陆后,会弹出滑动验证码,简单上个图,让大家看下验证码的样子,如下:呵呵哒,滑块验证,简单跟大家聊下思路。先聊一下常见的极验的两个版本,第一个,是有背景图的,也就是当不点击滑块按钮的时候,页面背景图是没有滑块缺口的,点击一下就有了,这个...

2019-05-30 18:55:00 1838

原创 关于Django多对多关系注册admin和多对多关系查询方法

今天写一下在django开发过程中遇到的那点小坑,主要是对于“多对多关系”这个坑,当我们在models.py中声明了字段后,在admin.py中去注册,models.py的各个类没有ManyToMany关系还好,一旦有这种关系,平时用的的注册方法就不行了,下面呢,上关系图: 上图的关系有三张表,Goods是商品表,Category是分类表,Store是卖家表,一件商品理论上只有一种分类,所以...

2018-08-28 17:13:20 3416 1

原创 使用requests抓取天眼查信息

大家在抓取的过程中,肯定遇见过有些内容需要在登陆之后才能抓取的,上一篇中为大家带来了使用selenium抓取天眼查保存到excel.但是selenium效率慢的怀疑人生,今天呢,为大家带来的是使用requests抓取天眼查,很简单,说一下headers部分,携带的cookis是已经登陆过的,重点是在浏览器中将登陆过的headers请求头复制下来,然后找对链接请求传参就行了。好了,话不多说,由于比较...

2018-08-03 14:26:47 2695 8

原创 多线程爬虫

写了那么多爬虫,也没写多线程爬虫,今天就为大家带来多线程爬虫,提高你的爬虫效率,增加你的爬取速度,今天的代码比较简单,就是爬取一个企业名录的公司信息,没有什么反扒措施,加上user-agent扮演成浏览器的身份就好了,好了,话不多说,进入正题,直接贴代码 好了 以上就是全部代码了,感兴趣的可以看看哦,有问题欢迎留言...

2018-08-01 12:11:32 230

原创 使用selenium+chrome模拟登录天眼查将数据保存至excel

之前的博客中,为大家带来了使用selenium进行模拟登录,这次呢,为大家带来的是使用selenium进行模拟登录天眼查,然后抓取天眼查的前五页信息,由于不是会员,只能抓取前五页,你要是想要抓取更多,那就开个会员吧,相信天眼查还是比较开心的,好了话不多说,进入正题,本次链接是 https://www.tianyancha.com/ 首先请求一下,进入主页: 然后,我们点击登陆注册,跳转到...

2018-07-31 17:00:10 4795 3

原创 使用requests传参模拟豆瓣登录

大家好,昨天写了一篇使用selenium进行模拟登录,同时也强调了selenium比较慢,今天呢,为大家带来一篇使用requests进行模拟登录,主要的问题就是分析在点击登录按钮的那一下之后,传了那些参数,下面,我们进入正题: 先看看豆瓣登录页面,链接是:https://accounts.douban.com/login,页面如下, 我们来分析一下,传哪些参数,随便输入账号12345678...

2018-07-26 15:07:06 540

原创 关于使用selenium模拟登录

爬虫有两大疑难杂症,第一,登陆验证,第二,验证码,其中验证码简单点还好,复杂点就尴尬了,下边为大家带来使用selenium模拟浏览器登录网站抓取信息,网站相对简单,此处只验证了登录成功与否,并没有对成功后的页面进行抓取,请悉知 首先,明确一下咱们登陆的网址:http://passport2.chaoxing.com/login 页面如下: 登陆成功后页面是这个样子: 使用选择器进...

2018-07-25 17:49:37 754

原创 爬取数据保存至mysql数据库

做爬虫,免不了将抓取下来的数据保存到数据库,但是如何保存到数据库呢,下面我通过我工作中抓取的一个网站来展示,代码有点多,但是逻辑很简单,此例是将标题连接保存在了mysql中,先看看网站是什么样子: 下边这个图是页码 网站是这个样子,我在代码中有个判断,就是判断链接是否有三个,分别执行不同操作,就是根据图中标记来的 此次请求是get请求,不需要传参,只需要重新拼接url进行翻页即可 ...

2018-07-25 10:02:25 6019

原创 关于域名暂时解析失败的问题 (Temporary failure in name resolution)

相信很多小伙伴在运行爬虫程序的时候,都会遇到这么个错误, Temporary failure in name resolution 什么意思呢?昨天还运行的好好的呢! 域名暂时解析失败,但是呢,在浏览器输入网址,还是可以打开这个网站的,看网站内容布局,没有改版,所以代码上应该没有问题。解决这个问题的关键呢,就是未能解析目标网站的DNS服务器,所以把DNS服务器地址配置进去就行了,修改如下:...

2018-07-24 08:56:44 11605 3

原创 使用requests+re+xlwt将爬下来的数据保存在excel中

在平时的工作中,大家可能会遇见这么一种情况,就是领导让你从一个网站抓点数据,但是呢,他又不懂编程,那么如何让领导很直观的看懂咱们抓下来的数据呢?今天呢,给大家分享一个很使用的操作,就是直接抓取数据保存到Excel中,以腾讯课堂为例,链接为 https://ke.qq.com/course/list?mt=1001&st=2002&tt=3019&page=首先咱们先来...

2018-07-22 16:07:46 1227

原创 爬取有道借口,传参进行翻译

人嘛,就是有时候想浪一下,比如程序员,本来好好的程序不用,非得自己搞一个,我就犯了这毛病了,下边就是我爬取有道接口传参进行翻译,代码如下:喜欢浪的一起浪吧...

2018-07-20 18:10:46 194

原创 python读取excel数据,保存到mysql

在之前已经给大家分享了查询数据库,将数据保存为excel的例子,现在呢,正好反过来,读取excel数据,将excel数据读出,保存到数据库中,附上代码如下图: 这个是excel数据的格式: 以下是代码: 以上就是全部代码了,希望对大家有所帮助...

2018-07-20 17:41:47 2517 3

原创 改写sinanew为scrapy+redis分布式

现在将上一篇的sinanew改写为scrapy + redis 分布式 以下是需要改动的地方: 先是sina.py setting.py两处改动 这样就算是改完了,然后alt + f12 输入命令scrapy runspider sina.py 如果提示没有找到这个文件,就scrapy runspider sinanew/sinanew/spiders/si...

2018-07-20 17:11:01 211

原创 使用scrapy抓取sinanew网站

平时搞爬虫都是自己写函数,写了很长时间,突然听到朋友说,框架很好用,可以来尝试尝试,所以就来了解了解scrapy,但是接触之后,并没有感觉到框架好用,可能是自己使用框架经验还不足吧,也研究了好多天,下边把我的经验跟大家分享一下,有错误的话,欢迎指正!1,这次抓取的网站是http://news.sina.com.cn/guide/,网上也有这个网站的抓取案例,因为忘了链接,就不附上了首先创建...

2018-07-20 16:43:26 356

原创 使用selenium+Chrome()无图版模拟浏览器进行抓取淘宝商品信息

说起淘宝,大家肯定先想起来的是各种各样的吃的喝的玩的,那么什么样的吃的喝的玩的销量高呢,有没有一种方法将商品信息抓下来我们做一个参考呢,下边就为大家带来我之前在崔庆才大神的参考下,将代码改写了,相对没有那么麻烦,喜欢的小伙伴快来看看吧。。1,首先打开淘宝先让咱们看看,咱们要做的就是在下边的输入框中输入商品名称,通过selenium拿到相关商品的信息打开f12,在Element中中找到输...

2018-07-20 15:43:30 1572

原创 使用python的xlwt模块将从mysql数据库中查询的数据导出为Excel文档

身边有很多小伙伴在操作mysql的时候,都会想要将查询的数据导出来,下边就附上我的一个python文件,实现查询数据库导出为Excel文档的功能,重点上图!以上就是全部代码,没有进行详细描述,不知道对大家有没有帮助呢...

2018-07-20 14:50:37 2068 2

原创 requests爬取联合国采购网站

这是第一次写博客文章,内心有点小激动呢!接下来给大家分享一下我在工作中爬取最多的网站,www.ungm.org ,联合国采购网站,听起来是不是很高大上呢?话不多说,进入正题...1.首先明确一下要抓取的内容,因为我想要的数据是每天都会更新,所以今天就抓取昨天的,以此类推。上图2.接下来就是分析了打开f12进行调试,发现如下:我们想要的数据都在Search中,3,然后我们点击...

2018-07-20 14:35:34 435

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除