_落红_-CSDN博客

转载 2020-10-30 Python爬虫第三章存储数据库，第二节，Python连接MongoDB

第二节，Python连接MongoDB 对于mongodb数据库安装可参考http://cnblogs.com/zhoulifeng/p/9429597.html 对于mongodb语言的学习可参考 http://blog.csdn.net/m0_37914588/article/details/81901497这两个安装网站本人亲自试过参考http://cnblogs.com/navysummer/p/9673409.html，这里面对于每一个操作都做了很详细的操作。 ...

2020-11-02 19:41:31 200

原创 2020-10-30 Python爬虫第三章存储数据库，第一节，Python连接MySql

第三章存储数据库这一章就说两个python链接mysql以及mongodb。这一章，重点说连接以及连接后的操作，并不会仔细去说Mysql以及Mongodb 两个语言。前期准备安装python的第三方包pymysql可使用pip安装 mysql数据库的安装可参考http://blog.csdn.net/qq_37350706/article/details/81707862 对于mongodb数据库安装可参考http://cnblogs.com/zhoulifeng/p/942959...

2020-11-02 19:33:49 242

原创 2020-10-30 Python爬虫第二章解析库学习，第三节，学习pyquery库

第三节、学习pyquery库 pyquery拥有许多强大函数或类，它的调用更为简单。pyquery也使用了css选择器，所以在很多语句上回合前面的select一致，读者可以把两者对照起来看看 1、基本用法下面罗列了一些爬虫需要用到的语法语法案例解释标签a.属性值1 div.password 寻找class ="password"所有标签div 标签a#属性值1 div#username 寻找id = “username”的所有标签div 标签

2020-10-31 17:13:21 241

原创 2020-10-30 Python爬虫第二章解析库学习，第二节，学习BeautifulSoup库

第二节、学习BeautifulSoup解析器在前面一节中我们学习了lxml解析库，这一节我们将学习BeautifulSoup解析器，这一节没有啥需要前期介绍的东西，这一章的熟语和上一节的一样，同样我们的html是不规范的，只是为了熟悉代码。本章输出内容有点多，所提很多时候我会将许多多余的东西用...代替，希望读者见谅。 1、了解各个解析器 BeautifulSoup支持下面四个解析器。综合下来，我们接下来甚至后面的都将使用html.parser解析器,若使用lxml解析器，我们还不如直接使.

2020-10-31 11:53:32 185

原创 2020-10-29 Python爬虫第二章解析库学习，第一节，学习lxml解析库

第一节，学习lxml解析库在前面一章中我们说了如何使用requests、ullib取获取网页源代码，这一章我们将说说如何通过解析库去获得我们想要获取的网页信息，而不是像前面那样整页输出。当然若是读者熟悉正则表达式，也能使用正则表达式去获得想要信息，但是正则表达式写起来很是繁琐，而且错误率很高，不到万不得已的时候建议不要使用正则表达式。毕竟python为我们提供了解析网页的强大工具lxml，BeautifulSoup，pyquery等库。这一章我们主要讲这三个库的深入学习，本章分为三个小节，每一节学习一个

2020-10-30 12:32:30 966

原创 2020-10-25 Python爬虫第一章urllib库与requests库，第四节，requests、urllib模拟登陆

第四节、requests|urllib模拟登陆本节的主要说如何使用requests、urllib模拟登陆一些网站，主要说明如何去成功登陆一些网站。另外由于我们还没说到动态网页的爬取方式，故我们主要说一些简单的登陆（要么没有验证码，要么验证码是输出字母那种，而不是像拖动滑动验证码那种，这种拖动滑动验证码的是需要selenium的支持才能登陆） 1.1使用cookies模拟登陆豆瓣为啥要用cookies登陆，而不使用账号密码登录呢。读者仔细查看下面三张图片，就知道我们要使用cookies登陆 .

2020-10-27 15:18:04 424

原创 2020-10-24 Python爬虫第一章urllib库与requests库，第三节，对比requests、urllib

第三节、对比requests、urllib 首先在此声明，本节的对比主要基于前两节的内容，可能两个库中还有其它强大的功能函数，但小编没有遇到，所以读者见谅。这里主要对比前面两节的内容。这一节我们主要对比requests、以及urllib库在发起请求上的的一些区别，避免我们在使用上出现知识点的混淆。对于这两个库的其他函数比如urlparse等函数，小编就不做比较了。我们主要比较urlopen、build_opener、requests.get、requests.Session四个发起请求之间的差距。

2020-10-24 15:10:16 285

原创 2020-10-23 Python爬虫第一章urllib库与requests库，第二节，深入学习requests库

第二节：requests学习

2020-10-24 11:14:24 431 2

原创 2020-10-22 Python爬虫第一章urllib库与requests库，第一节，深入学习urllib库

第一章 urllib库与requests库第一节 urllib库 1.使用urlopen发起请求爬虫概述。爬虫做的工作分为三步，第一步获取网页源代码，python提供了requests、urllib等库来获取网页源代码，第二步解析网页源代码，提取信息，在这里python提供了BeautifulSoup、pyquery、lxml等库来帮助我们提取自己想要的网页信息，第三步存储信息，在我们提取到信息后，有时候需要将信息保存在txt、json、csv等文件或者数据库中，这里数据库主要使用MySql，..

2020-10-23 16:50:48 486 1

原创 2020-10-18 今天来说说如何爬取猫眼上的电影信息

今天来说说如何爬取猫眼上的电影信息最近小编试图使用requests+BeautifulSoup取去抓取猫眼上的电影信息,但尝试一番后,发现输出的电影评分是乱码,

2020-10-18 19:42:01 4234 1

qq_42704187的博客