爬虫
普通网友
这个作者很懒,什么都没留下…
展开
-
python真实面试问题和过程
Python爬虫人工智能教程:www.python88.cn编程资源网:www.python66.cn挑战公司:****有限公司 公司规模:20~99人 公司地址:**** 面试时间:上午10:30 面试结果:谈了待遇,等待通知做了个Python学习网站,www.python88.cn,包含全套教程,Python、爬虫、web、数据分析、机器...原创 2018-04-14 18:18:12 · 7599 阅读 · 4 评论 -
模拟登陆人人网--手动复制粘贴cookies
用自己的账号手动登陆下,复制cookies原创 2018-05-14 22:46:42 · 1043 阅读 · 0 评论 -
模拟登陆--selenium模拟登陆CSDN获取cookies
selenium模拟登陆CSDN获取cookies模拟登陆步骤:1、点击账号登陆按钮2、输入用户名、密码、点击登陆按钮1、通过by_xpath的class类名来查找账号登陆按钮(特别说明,find_element_by_xpath比find_element_by_class和by_id识别率要高很多,如果by_class和by_id等识别不到或者报错,就用by_xpath写法书写)2、模拟登陆获取...原创 2018-05-21 22:20:07 · 480 阅读 · 0 评论 -
初探基于Tesseract、图像二分法、阈值实现的图像文字识别
开发环境:Linux乌班图Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。1、安装1、sudo apt-get install tesseract-ocr(安装tesseract)2、pip...原创 2018-06-03 21:48:37 · 2754 阅读 · 1 评论 -
这些User-Agent和代理IP的使用套路你是否知道,来进行反爬?
一、为何要设置User Agent 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。 User Agent存放于Headers中,服务器就是通过查看...转载 2018-06-27 07:43:40 · 2148 阅读 · 1 评论 -
微信撤回的消息找不到?你OUT了,看看python程序怎么找回!
如题所说,本节分享文章,微信撤回的消息如何通过python程序找回来? 下方是我录制的一个GIF动图,发送了五条消息,并且撤回,撤回的消息我转发到文件传输助手,如箭头所示 1、登陆itchat模块 2、注册接收消息的类型,TEXT表示文本,PICTURE表示图片,其他大家不懂的话自行脑补,只提示到这里 3、判断消息类型,并保存内容到msg_dict中,这里我们以msg_id...原创 2018-07-12 15:12:16 · 8883 阅读 · 2 评论 -
selenium模拟登陆豆瓣并获取cookies
验证码处理与模拟登陆豆瓣,首先我们看到豆瓣没有cookies,我们需要用程序来模拟登陆获取cookies(当前有些情况下自己手动登陆后复制粘贴cookies也能登陆),该文主要讲方法,如何用selenium模拟登陆获取cookies1、输入用户名、密码点击登录,点击登录后跳转到另外一个验证码页面,并通过云打码进行验证码返回2、验证码返回后输入后通过字典推导式获取每个domain中的name和val...原创 2018-05-14 21:43:40 · 7327 阅读 · 2 评论 -
模拟登陆(三)--用session模拟登陆
session模拟登陆方法:1、用session并携带headers和data进行请求登陆接口2、请求成功后,session中会携带cookie信息,再通过session请求登陆后页面即可实现模拟登陆该篇文章不明白的留言,100多个爬虫、数据分析、机器学习源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号) ...原创 2018-05-19 23:48:22 · 3975 阅读 · 0 评论 -
沃保网爬虫(五)--利用pandas 2行代码保存csv文件
python语言在数据分析有很多优势,特别方便,当然离不开很多优秀的库,本文讲述pandas方便的保存数据为csv文件,你可以不会用这个库,但是我今天讲的方法大家记忆下,很好用,再没有基础也能学会,后期教程这些都会更深入讲的1、我构造了一个cont_list,结构为列表嵌套字典,字典是每一个样本,类似于我们爬虫爬下来的数据的结构2、利用pd.DataFrame方法先将数据转换成一个二维结构数据,如...原创 2018-05-09 10:33:41 · 6955 阅读 · 1 评论 -
沃保网爬虫(二)-爬虫数据保存MySQL--建表
沃保网爬的每一个代理人数据,最后以字典形式保存{"name":***,"num":***,"city":***.......}这样的键值对结构,具体通过desc 表名;可以查看表结构,我们建好表结构后,就可以通过按照字典的键值对保存在表对应的字段中,红框标出的是表结构的字段名称,下面我会讲如何建立这个结构的表照顾不懂MySQL数据库的同学,我会从连接数据库,创建数据库,创建表详细的讲1、连接数据...原创 2018-05-04 00:04:17 · 817 阅读 · 0 评论 -
沃保网爬虫(三)--保存mongdb数据库
MongoDB数据库保存,我们主要讲一些常用命令数据库连接请看博客另外的文章已经写了,在此不再多讲常用命令如下:1、创建数据库和集合(表):2、查看命令3、代码书写:该篇文章不明白的留言,系列爬虫文章源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号) ...原创 2018-05-05 14:06:49 · 275 阅读 · 0 评论 -
当当爬虫--分布式爬虫配置
1、settings配置文件加这四行代码2、导入包继承redisspider,start_urls中的url要加入redis_key中,作为主机请求的初始url,在redis中dangdang这个key中加入初始URL该篇文章不明白的留言,源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号) ...原创 2018-05-05 15:12:33 · 372 阅读 · 0 评论 -
沃保网爬虫(八)-读取csv保存mysql
10条csv数据构造[{},{},{}****]数据结构,列表是所有样本,字典是每个样本通过参数化方法将每个字典数据,也就是每个样本写入mysql检测:成功保存数据更多文章,请关注微信公众号...原创 2018-05-12 11:51:26 · 322 阅读 · 0 评论 -
沃保网爬虫(九)--requests爬虫升级为scrapy爬虫
1、requests爬虫升级为scrapy爬虫:2、start_requests:构造requests对象,包含请求url、请求方式、请求参数3、判断页码,构造下一页请求参数,主要是构造页面,请求下一页数据4、请求详情页资格证号,并返回5、返回资格证号,并yield返回6、数据的处理,pipline,item_key是redis中的集合名词7、加密字段在redis集合中的保存形式显示所有key :...原创 2018-05-13 16:52:58 · 595 阅读 · 0 评论