自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Python爬虫学习之路(4)--数据存储之关系型数据库存储mysql

关系型数据库存储 MySQL准备工作首先当然要确保电脑安装了MySQL,这个网上教程很多,就不做详细记录了。在pycharm中安装pymysql库基本操作及语法直接上代码import pymysql#连接数据库,这里连接的是本地数据库,如果要连接他人的,改参数即可。db = pymysql.connect(host='localhost',user='root',password...

2019-05-06 22:39:04 256

原创 python爬虫学习之路(6)--数据存储之文件存储(txt,json,csv)

最近比较忙,没时间整理,今天先复习一下文件存储。文件的打开方式:r:只读方式打开rb:以二进制只读方式打开一个文件r+:以读写方式打开文件rb+:以二进制读写方式打开一个文件w: 以写入方式打开一个文件,如果以前不存在,则创建,存在则覆盖wb:以二进制写入方式打开一个文件。如果以前不存在,则创建,存在则覆盖a:追加方式打开文件。不存在创建,存在继续写。同时还有ab,a+,wb+等...

2019-04-18 20:59:19 301 1

原创 python学习实践--爬取笔趣阁小说

仔细想想自己以前也是个爱看小说的人,虽说浪费时间,但感觉还是对语文和语言表达啥的有点帮助的,所以利用自己所学干点喜欢的事也是相当不错的。这里以笔趣阁的一本叫做《全球高武》小说为例,主要是目的是把自己最近学的东西实践一下。爬取目标网址:http://www.biqu6.com/23_23465/分析工作小说这东西无疑是一章一章的,所以先打开第一章,发现url是http://www.biqu6...

2019-04-11 17:57:26 854

原创 python爬虫学习之路(5)--pyquery

最近学了Xpath,Beautiful Soup以及pyquery三种网页解析库。但可能由于学习的较浅的原因,个人认为这三种库的功能大致相同。所以这里只进行自己比较喜欢的pyquery的学习记录。准备下载pyquery模块初始化工作及基本功能演示老规矩,直接写代码,详细看注释,可以自己尝试一下基本CSS选择器及进行遍历html ='''<div id="container"&g...

2019-04-11 15:23:30 114

原创 python学习实践--爬取猫眼电影排行

爬取前一定要注意观察网站的url地址,如果是分页的话,找出每一页不同的地址规律,同时,尽量在network选项卡部分查看网页源代码,否则源码可能经过JavaScript操作与原始请求不同。抓取站点http://maoyan.com/board/4首先获取网页的源代码import requestsdef get_one_page(url): headers = { 'U...

2019-04-06 21:12:31 501

原创 python爬虫学习之路(4)--正则表达式

正则表达式是用来处理字符串的,可以用来对字符串进行检索、替换、匹配等正则表达式感觉单从理论上说正则表达式太过于抽象,直接举一个例子可能更方便理解。这里只记录通用匹配,因为暂时感觉实用性更高,如果以后要用到其它细节,再倒过头来学吧,毕竟,咳咳,脑子记不住这么多东西。首先python要引入re库,关于怎样引入之前有过记录。首先说一下三个常用的匹配规则,“.” :匹配任意字符,回车除外,加r...

2019-04-06 20:39:06 188

原创 Python爬虫学习之路(3) --requests库

本来一开始是学习的urllib这个库,但后来学requests后发现后者不仅更加简单,功能也更加强大,所以这里只做requests的笔记。Requests 库准备工作:在pycharm中安装requests库。使用pycharm后发现添加库异常简单。只需要以下几个步骤:File—Settings—Project:(你创建文件的名字)—Project Interpreter–点击右侧的+号就能...

2019-04-02 20:32:37 205

原创 Python爬虫学习之路(2)--网络基础

这个对于对后面知识的理解十分重要。刚接触感觉很难记忆,不过多看几遍也就差不多了。后面的爬虫与之息息相关(我也算是在预习计算机网络了吧,没想到这次成了一个好学生)。HTTP基本原理:1.URL:全称Uniform Resource Locator(英语很重要,英语很重要,英语很重要),也就是统一资源定位符 。举个例子:http://github .com/favicon.ico,其中包含了...

2019-03-31 19:29:53 210

原创 Python爬虫学习之路(1)--前端

学习前的准备最近一直想找一种督促自己学习的方法,感觉似乎写博客是一个不错的选择。所以这些博客的主要目的当然是让自己静下心来巩固复习,当然如果能对别人有所帮助,那就再好不过了。我是在win10+pycharm上编写python的,至于一些库,使用的时候再导入吧。前端三大件html,css,javascript学习爬虫之前一定要对前端知识有所了解,当然要求不是精通,但是一定要大体读懂界面的源代...

2019-03-31 09:06:13 1716 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除