习风的博客-CSDN博客

原创 win10连接远程服务器

在cmd中输入mstsc其中本地资源选项卡配置要上传服务器的文件如果遇到问题，则进行以下操作1.运行regedit,打开注册表2.找文件夹路径：\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Policies\System\CredSSP\Parameters正常情况下，文件只显示到System，...

2019-05-31 14:25:32 378

原创 selenium滑动验证

半年多没发过博客了，这段时间也搞了很多东西，也算是成长了那么一丢丢。今天就来聊一下关于爬虫滑动验证。这段时间搞某航空网站，查询时候，会让登陆，点击登陆后，会弹出滑动验证码，简单上个图，让大家看下验证码的样子，如下：呵呵哒，滑块验证，简单跟大家聊下思路。先聊一下常见的极验的两个版本，第一个，是有背景图的，也就是当不点击滑块按钮的时候，页面背景图是没有滑块缺口的，点击一下就有了，这个...

2019-05-30 18:55:00 1840

原创关于Django多对多关系注册admin和多对多关系查询方法

今天写一下在django开发过程中遇到的那点小坑，主要是对于“多对多关系”这个坑，当我们在models.py中声明了字段后，在admin.py中去注册，models.py的各个类没有ManyToMany关系还好，一旦有这种关系，平时用的的注册方法就不行了，下面呢，上关系图：上图的关系有三张表，Goods是商品表，Category是分类表，Store是卖家表，一件商品理论上只有一种分类，所以...

2018-08-28 17:13:20 3416 1

大家在抓取的过程中，肯定遇见过有些内容需要在登陆之后才能抓取的，上一篇中为大家带来了使用selenium抓取天眼查保存到excel.但是selenium效率慢的怀疑人生，今天呢，为大家带来的是使用requests抓取天眼查，很简单，说一下headers部分，携带的cookis是已经登陆过的，重点是在浏览器中将登陆过的headers请求头复制下来，然后找对链接请求传参就行了。好了，话不多说，由于比较...

2018-08-03 14:26:47 2696 8

原创多线程爬虫

写了那么多爬虫，也没写多线程爬虫，今天就为大家带来多线程爬虫，提高你的爬虫效率，增加你的爬取速度，今天的代码比较简单，就是爬取一个企业名录的公司信息，没有什么反扒措施，加上user-agent扮演成浏览器的身份就好了，好了，话不多说，进入正题，直接贴代码好了以上就是全部代码了，感兴趣的可以看看哦，有问题欢迎留言...

2018-08-01 12:11:32 230

原创使用selenium+chrome模拟登录天眼查将数据保存至excel

之前的博客中，为大家带来了使用selenium进行模拟登录，这次呢，为大家带来的是使用selenium进行模拟登录天眼查，然后抓取天眼查的前五页信息，由于不是会员，只能抓取前五页，你要是想要抓取更多，那就开个会员吧，相信天眼查还是比较开心的，好了话不多说，进入正题，本次链接是 https://www.tianyancha.com/ 首先请求一下，进入主页：然后，我们点击登陆注册，跳转到...

2018-07-31 17:00:10 4798 3

原创使用requests传参模拟豆瓣登录

大家好，昨天写了一篇使用selenium进行模拟登录，同时也强调了selenium比较慢，今天呢，为大家带来一篇使用requests进行模拟登录，主要的问题就是分析在点击登录按钮的那一下之后，传了那些参数，下面，我们进入正题：先看看豆瓣登录页面，链接是：https://accounts.douban.com/login，页面如下，我们来分析一下，传哪些参数，随便输入账号12345678...

2018-07-26 15:07:06 540

原创关于使用selenium模拟登录

爬虫有两大疑难杂症，第一，登陆验证，第二，验证码，其中验证码简单点还好，复杂点就尴尬了，下边为大家带来使用selenium模拟浏览器登录网站抓取信息，网站相对简单，此处只验证了登录成功与否，并没有对成功后的页面进行抓取，请悉知首先，明确一下咱们登陆的网址：http://passport2.chaoxing.com/login 页面如下：登陆成功后页面是这个样子：使用选择器进...

2018-07-25 17:49:37 754

原创爬取数据保存至mysql数据库

做爬虫，免不了将抓取下来的数据保存到数据库，但是如何保存到数据库呢，下面我通过我工作中抓取的一个网站来展示，代码有点多，但是逻辑很简单，此例是将标题连接保存在了mysql中，先看看网站是什么样子：下边这个图是页码网站是这个样子，我在代码中有个判断，就是判断链接是否有三个，分别执行不同操作，就是根据图中标记来的此次请求是get请求，不需要传参，只需要重新拼接url进行翻页即可 ...

2018-07-25 10:02:25 6019

原创关于域名暂时解析失败的问题（Temporary failure in name resolution）

相信很多小伙伴在运行爬虫程序的时候，都会遇到这么个错误， Temporary failure in name resolution 什么意思呢？昨天还运行的好好的呢！域名暂时解析失败，但是呢，在浏览器输入网址，还是可以打开这个网站的，看网站内容布局，没有改版，所以代码上应该没有问题。解决这个问题的关键呢，就是未能解析目标网站的DNS服务器，所以把DNS服务器地址配置进去就行了，修改如下：...

2018-07-24 08:56:44 11609 3

原创使用requests+re+xlwt将爬下来的数据保存在excel中

在平时的工作中，大家可能会遇见这么一种情况，就是领导让你从一个网站抓点数据，但是呢，他又不懂编程，那么如何让领导很直观的看懂咱们抓下来的数据呢？今天呢，给大家分享一个很使用的操作，就是直接抓取数据保存到Excel中，以腾讯课堂为例，链接为 https://ke.qq.com/course/list?mt=1001&amp;st=2002&amp;tt=3019&amp;page=首先咱们先来...

2018-07-22 16:07:46 1227

原创爬取有道借口，传参进行翻译

人嘛，就是有时候想浪一下，比如程序员，本来好好的程序不用，非得自己搞一个，我就犯了这毛病了，下边就是我爬取有道接口传参进行翻译，代码如下：喜欢浪的一起浪吧...

2018-07-20 18:10:46 195

原创 python读取excel数据，保存到mysql

在之前已经给大家分享了查询数据库，将数据保存为excel的例子，现在呢，正好反过来，读取excel数据，将excel数据读出，保存到数据库中，附上代码如下图：这个是excel数据的格式：以下是代码：以上就是全部代码了，希望对大家有所帮助...

2018-07-20 17:41:47 2517 3

原创改写sinanew为scrapy+redis分布式

现在将上一篇的sinanew改写为scrapy + redis 分布式以下是需要改动的地方：先是sina.py setting.py两处改动这样就算是改完了，然后alt + f12 输入命令scrapy runspider sina.py 如果提示没有找到这个文件，就scrapy runspider sinanew/sinanew/spiders/si...

2018-07-20 17:11:01 211

原创使用scrapy抓取sinanew网站

平时搞爬虫都是自己写函数，写了很长时间，突然听到朋友说，框架很好用，可以来尝试尝试，所以就来了解了解scrapy，但是接触之后，并没有感觉到框架好用，可能是自己使用框架经验还不足吧，也研究了好多天，下边把我的经验跟大家分享一下，有错误的话，欢迎指正！1，这次抓取的网站是http://news.sina.com.cn/guide/，网上也有这个网站的抓取案例，因为忘了链接，就不附上了首先创建...

2018-07-20 16:43:26 356

原创使用selenium+Chrome()无图版模拟浏览器进行抓取淘宝商品信息

说起淘宝，大家肯定先想起来的是各种各样的吃的喝的玩的，那么什么样的吃的喝的玩的销量高呢，有没有一种方法将商品信息抓下来我们做一个参考呢，下边就为大家带来我之前在崔庆才大神的参考下，将代码改写了，相对没有那么麻烦，喜欢的小伙伴快来看看吧。。1，首先打开淘宝先让咱们看看，咱们要做的就是在下边的输入框中输入商品名称，通过selenium拿到相关商品的信息打开f12,在Element中中找到输...

2018-07-20 15:43:30 1573

原创使用python的xlwt模块将从mysql数据库中查询的数据导出为Excel文档

身边有很多小伙伴在操作mysql的时候，都会想要将查询的数据导出来，下边就附上我的一个python文件，实现查询数据库导出为Excel文档的功能，重点上图！以上就是全部代码，没有进行详细描述，不知道对大家有没有帮助呢...

2018-07-20 14:50:37 2069 2

原创 requests爬取联合国采购网站

这是第一次写博客文章，内心有点小激动呢！接下来给大家分享一下我在工作中爬取最多的网站，www.ungm.org ，联合国采购网站，听起来是不是很高大上呢？话不多说，进入正题...1.首先明确一下要抓取的内容，因为我想要的数据是每天都会更新，所以今天就抓取昨天的，以此类推。上图2.接下来就是分析了打开f12进行调试，发现如下：我们想要的数据都在Search中，3，然后我们点击...

2018-07-20 14:35:34 435

qq_39928840的博客