自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

python爬虫人工智能大数据

python web开发、数据分析、机器学习、深度学习、自然语言处理、算法等知识集中营、期待与你相遇~

  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 模拟登陆--selenium模拟登陆CSDN获取cookies

selenium模拟登陆CSDN获取cookies模拟登陆步骤:1、点击账号登陆按钮2、输入用户名、密码、点击登陆按钮1、通过by_xpath的class类名来查找账号登陆按钮(特别说明,find_element_by_xpath比find_element_by_class和by_id识别率要高很多,如果by_class和by_id等识别不到或者报错,就用by_xpath写法书写)2、模拟登陆获取...

2018-05-21 22:20:07 466

原创 模拟登陆(三)--用session模拟登陆

session模拟登陆方法:1、用session并携带headers和data进行请求登陆接口2、请求成功后,session中会携带cookie信息,再通过session请求登陆后页面即可实现模拟登陆该篇文章不明白的留言,100多个爬虫、数据分析、机器学习源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号) ...

2018-05-19 23:48:22 3964

原创 模拟登陆人人网--手动复制粘贴cookies

用自己的账号手动登陆下,复制cookies

2018-05-14 22:46:42 1032

原创 selenium模拟登陆豆瓣并获取cookies

验证码处理与模拟登陆豆瓣,首先我们看到豆瓣没有cookies,我们需要用程序来模拟登陆获取cookies(当前有些情况下自己手动登陆后复制粘贴cookies也能登陆),该文主要讲方法,如何用selenium模拟登陆获取cookies1、输入用户名、密码点击登录,点击登录后跳转到另外一个验证码页面,并通过云打码进行验证码返回2、验证码返回后输入后通过字典推导式获取每个domain中的name和val...

2018-05-14 21:43:40 7253 2

原创 沃保网爬虫(九)--requests爬虫升级为scrapy爬虫

1、requests爬虫升级为scrapy爬虫:2、start_requests:构造requests对象,包含请求url、请求方式、请求参数3、判断页码,构造下一页请求参数,主要是构造页面,请求下一页数据4、请求详情页资格证号,并返回5、返回资格证号,并yield返回6、数据的处理,pipline,item_key是redis中的集合名词7、加密字段在redis集合中的保存形式显示所有key :...

2018-05-13 16:52:58 587

原创 mysql、mongodb、redis三大数据库连接

点击终端图标,即可出现命令行终端界面,Ctrl shift + ,快捷键可以增大字号,ctrl - 可以减小字号1、mysql连接:mysql -uroot -pmysql(-u后面跟用户名root,-p后面跟密码mysql)2、redis连接启动服务端:sudo service redis start启动客户端:redis-cli3、mongodb数据库连接启动服务端:sudo service ...

2018-05-13 10:03:34 1839

原创 沃保网爬虫(八)-读取csv保存mysql

10条csv数据构造[{},{},{}****]数据结构,列表是所有样本,字典是每个样本通过参数化方法将每个字典数据,也就是每个样本写入mysql检测:成功保存数据更多文章,请关注微信公众号...

2018-05-12 11:51:26 314

原创 沃保网爬虫(五)--利用pandas 2行代码保存csv文件

python语言在数据分析有很多优势,特别方便,当然离不开很多优秀的库,本文讲述pandas方便的保存数据为csv文件,你可以不会用这个库,但是我今天讲的方法大家记忆下,很好用,再没有基础也能学会,后期教程这些都会更深入讲的1、我构造了一个cont_list,结构为列表嵌套字典,字典是每一个样本,类似于我们爬虫爬下来的数据的结构2、利用pd.DataFrame方法先将数据转换成一个二维结构数据,如...

2018-05-09 10:33:41 6940 1

原创 当当爬虫--分布式爬虫配置

1、settings配置文件加这四行代码2、导入包继承redisspider,start_urls中的url要加入redis_key中,作为主机请求的初始url,在redis中dangdang这个key中加入初始URL该篇文章不明白的留言,源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号) ...

2018-05-05 15:12:33 365

原创 沃保网爬虫(三)--保存mongdb数据库

MongoDB数据库保存,我们主要讲一些常用命令数据库连接请看博客另外的文章已经写了,在此不再多讲常用命令如下:1、创建数据库和集合(表):2、查看命令3、代码书写:该篇文章不明白的留言,系列爬虫文章源码已经上传知识星球(左侧为知识星球,右侧二维码为微信公众号) ...

2018-05-05 14:06:49 265

原创 沃保网爬虫(二)-爬虫数据保存MySQL--建表

沃保网爬的每一个代理人数据,最后以字典形式保存{"name":***,"num":***,"city":***.......}这样的键值对结构,具体通过desc 表名;可以查看表结构,我们建好表结构后,就可以通过按照字典的键值对保存在表对应的字段中,红框标出的是表结构的字段名称,下面我会讲如何建立这个结构的表照顾不懂MySQL数据库的同学,我会从连接数据库,创建数据库,创建表详细的讲1、连接数据...

2018-05-04 00:04:17 811

快速入门python培训教程.ppt

对于python小白,很多不知道从何入手学起,不了解python有什么用,这个PPT辛苦整理总结的

2019-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除