python入门爬虫教程
Ejasmine
时间不等人,向编程海洋进发!
展开
-
python爬虫教程(2)-编写你的第一个爬虫
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!开始你的爬虫我将以爬取我的博客页面为例,为大家解析爬虫基础知识,首先我们要安装requests库:打开cmd窗口输入 pip install requests首先我们要使用requests库获取页面:import requestslink='https://blog.csdn.net/weixin_42183408'hea...原创 2019-02-14 17:18:10 · 3433 阅读 · 5 评论 -
python爬虫教程(1)-爬虫的好处
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!爬虫爬虫能自动从互联网上获取数据,通过这些数据,我们可以做很多事情。比如说有一家电器售卖公司,为了生存下去,它需要实时了解对手的状况,改进自己的产品,然而我们不可能从对手的网站上进行一遍一遍的复制黏贴,且不说耗费时间之多,而且还极可能一不小心复制错一个数字或是一个数据,导致极大的错误,但网络爬虫就解决了这个问题。我们可以通过网络爬虫大...原创 2019-02-13 19:29:47 · 3595 阅读 · 0 评论 -
python爬虫教程(10)-存储到MongoDB数据库
在网络爬虫时可能要存储大量数据,这时候NoSQL非关系类数据库就非常方便,我们选区mongodb作为例子:安装mongodb进入官网,选择msi进行安装:https://www.mongodb.com/download-center/community你可以选择complete安装全部或custom自己定制,接下来完成安装。接下来在你的C盘中新建一个名叫data的文件夹,文件夹里创建...原创 2019-02-18 13:03:24 · 2646 阅读 · 0 评论 -
python爬虫教程(9)-python操作MySQL数据库
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!python操作mysql数据库首先我们要安装pymysql库,在cmd中输入:pip install pymysql接下来我们来试试操作mysql数据库:import pymysqlconn = pymysql.connect(host="localhost", user="root", passwd="passwd", db...原创 2019-02-18 12:45:02 · 720 阅读 · 0 评论 -
python爬虫教程(8)-数据存储之MySQL
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!存储到MySQLMySQL是一种关系式数据库,使用SQL语言,MySQL将数据保存到不同表中,而不是将数据存放在一个大仓库里,因此比较灵活flexible。MySQL安装进入mysql官网下载页面:https://dev.mysql.com/downloads/mysql/,进入msi下载页面(点击Go to Download Pa...原创 2019-02-18 10:45:28 · 735 阅读 · 1 评论 -
python爬虫教程(7)-数据存储之txt和csv
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!存储到txt提取完了我们想要的信息,下一步当然就是把数据存储下来咯,这一次我们先来介绍存储到txt和csvtxt也就是文本文件,比较简单,可以参考我的这篇博客:Python入门知识(8)-open()函数我们直接进入存储到csv:存储到csvcsv也就是我们熟知的表格形式,一般用excel来打开,接下来我们来介绍以下读取csv的方...原创 2019-02-17 12:44:44 · 1016 阅读 · 0 评论 -
python爬虫教程(6)-lxml解析网页
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!lxml上一次我们讲解了BeautifulSoup解析网页,这一次我们来讲讲最后一种解析方式,也就是lxml,它用C语言编写,使用xPath语法。lxml获取日期lxml使用xPath获取信息,xPath比较像路径,以下是爬取日期的代码:import requestsfrom lxml import etreelink='ht...原创 2019-02-16 20:17:32 · 1850 阅读 · 1 评论 -
python爬虫教程(5)-BeautifulSoup解析网页
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!使用BeautifulSoup解析BeautifulSoup提供了从HTML中提取数据的功能,相对正则表达式来说,BeautifulSoup较为简单,所以放松!安装pip install bs4使用BeautifulSoup获取日期我们在上一篇文章中使用了正则表达式获取博客发布日期,这次我们使用BeautifulSoup来获取时...原创 2019-02-16 18:16:34 · 1541 阅读 · 0 评论 -
python爬虫教程(4)-正则表达式解析网页
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!正则表达式解析网页正则表达式就是对字符串进行操作的逻辑公式,相当于‘过滤’这个字符串。我们可以把网页源码变成字符串,再用正则表达式对其进行提取,一开始学正则表达式会感到有点困难,但是加油!接下来就是一个难懂的表格:.*匹配除了换行符外的任意字符匹配前一个字符0或多次+?匹配前一个字符1或多次匹配...原创 2019-02-16 16:34:31 · 2991 阅读 · 1 评论 -
python爬虫教程(3)-requests爬取静态网页
欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!静态网页在网站中,纯HTML格式的网页被称为静态网页,在我们的爬虫中,静态网页较容易获取,因为页面上的内容都在HTML代码上,关于静态网页,我们可以使用requests库,之前我们已经安装过requests库了,所以我们直接开始:获取相应内容import requestsr=requests.get('https://blog.cs...原创 2019-02-14 21:01:41 · 3570 阅读 · 0 评论 -
python入门爬虫教程汇总
我的CSDN入门爬虫教程汇总:python爬虫教程(1)-爬虫的好处python爬虫教程(2)-编写你的第一个爬虫python爬虫教程(3)-requests爬取静态网页python爬虫教程(4)-正则表达式解析网页python爬虫教程(5)-BeautifulSoup解析网页python爬虫教程(6)-lxml解析网页python爬虫教程(7)-数据存储之txt和csvpytho...原创 2019-02-20 21:08:25 · 3970 阅读 · 0 评论