python爬虫人工智能大数据

python web开发、数据分析、机器学习、深度学习、自然语言处理、算法等知识集中营、期待与你相遇~

11月 09月 08月 07月 06月 05月 04月

原创模拟登陆--selenium模拟登陆CSDN获取cookies

selenium模拟登陆CSDN获取cookies模拟登陆步骤：1、点击账号登陆按钮2、输入用户名、密码、点击登陆按钮1、通过by_xpath的class类名来查找账号登陆按钮（特别说明，find_element_by_xpath比find_element_by_class和by_id识别率要高很多，如果by_class和by_id等识别不到或者报错，就用by_xpath写法书写）2、模拟登陆获取...

2018-05-21 22:20:07 466

原创模拟登陆（三）--用session模拟登陆

session模拟登陆方法：1、用session并携带headers和data进行请求登陆接口2、请求成功后，session中会携带cookie信息，再通过session请求登陆后页面即可实现模拟登陆该篇文章不明白的留言，100多个爬虫、数据分析、机器学习源码已经上传知识星球（左侧为知识星球，右侧二维码为微信公众号） ...

2018-05-19 23:48:22 3964

原创模拟登陆人人网--手动复制粘贴cookies

用自己的账号手动登陆下，复制cookies

2018-05-14 22:46:42 1032

原创 selenium模拟登陆豆瓣并获取cookies

验证码处理与模拟登陆豆瓣，首先我们看到豆瓣没有cookies，我们需要用程序来模拟登陆获取cookies（当前有些情况下自己手动登陆后复制粘贴cookies也能登陆），该文主要讲方法，如何用selenium模拟登陆获取cookies1、输入用户名、密码点击登录，点击登录后跳转到另外一个验证码页面，并通过云打码进行验证码返回2、验证码返回后输入后通过字典推导式获取每个domain中的name和val...

2018-05-14 21:43:40 7253 2

原创沃保网爬虫（九）--requests爬虫升级为scrapy爬虫

1、requests爬虫升级为scrapy爬虫：2、start_requests:构造requests对象，包含请求url、请求方式、请求参数3、判断页码，构造下一页请求参数，主要是构造页面，请求下一页数据4、请求详情页资格证号，并返回5、返回资格证号，并yield返回6、数据的处理，pipline，item_key是redis中的集合名词7、加密字段在redis集合中的保存形式显示所有key :...

2018-05-13 16:52:58 587

原创 mysql、mongodb、redis三大数据库连接

点击终端图标，即可出现命令行终端界面，Ctrl shift + ,快捷键可以增大字号，ctrl - 可以减小字号1、mysql连接：mysql -uroot -pmysql（-u后面跟用户名root，-p后面跟密码mysql）2、redis连接启动服务端：sudo service redis start启动客户端：redis-cli3、mongodb数据库连接启动服务端：sudo service ...

2018-05-13 10:03:34 1839

原创沃保网爬虫（八）-读取csv保存mysql

10条csv数据构造[{},{},{}****]数据结构，列表是所有样本，字典是每个样本通过参数化方法将每个字典数据，也就是每个样本写入mysql检测：成功保存数据更多文章，请关注微信公众号...

2018-05-12 11:51:26 314

原创沃保网爬虫（五）--利用pandas 2行代码保存csv文件

python语言在数据分析有很多优势，特别方便，当然离不开很多优秀的库，本文讲述pandas方便的保存数据为csv文件，你可以不会用这个库，但是我今天讲的方法大家记忆下，很好用，再没有基础也能学会，后期教程这些都会更深入讲的1、我构造了一个cont_list，结构为列表嵌套字典，字典是每一个样本，类似于我们爬虫爬下来的数据的结构2、利用pd.DataFrame方法先将数据转换成一个二维结构数据，如...

2018-05-09 10:33:41 6940 1

原创当当爬虫--分布式爬虫配置

1、settings配置文件加这四行代码2、导入包继承redisspider，start_urls中的url要加入redis_key中，作为主机请求的初始url，在redis中dangdang这个key中加入初始URL该篇文章不明白的留言，源码已经上传知识星球（左侧为知识星球，右侧二维码为微信公众号） ...

2018-05-05 15:12:33 365

原创沃保网爬虫（三）--保存mongdb数据库

MongoDB数据库保存，我们主要讲一些常用命令数据库连接请看博客另外的文章已经写了，在此不再多讲常用命令如下：1、创建数据库和集合（表）：2、查看命令3、代码书写：该篇文章不明白的留言，系列爬虫文章源码已经上传知识星球（左侧为知识星球，右侧二维码为微信公众号） ...

2018-05-05 14:06:49 265

原创沃保网爬虫（二）-爬虫数据保存MySQL--建表

沃保网爬的每一个代理人数据，最后以字典形式保存{"name":***,"num":***,"city":***.......}这样的键值对结构，具体通过desc 表名；可以查看表结构，我们建好表结构后，就可以通过按照字典的键值对保存在表对应的字段中，红框标出的是表结构的字段名称，下面我会讲如何建立这个结构的表照顾不懂MySQL数据库的同学，我会从连接数据库，创建数据库，创建表详细的讲1、连接数据...

2018-05-04 00:04:17 811

快速入门python培训教程.ppt

对于python小白，很多不知道从何入手学起，不了解python有什么用，这个PPT辛苦整理总结的

2019-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人