自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 scrapy&爱问知识人

这次是使用scrapy爬取爱问知识人一、scrapy的简介Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类。是一个为遍历爬行网站、分解获取数据而设计的应用...

2018-12-07 20:41:09 186

原创 爬取艺龙酒店评论

这次是爬取艺龙酒店的评论并写入数据库和txt文档这次爬取和上一篇爬取的孔夫子旧书网差不多,这次是爬取的是所有的酒店的所有评论。在本次爬取写入数据库时,出现了一些问题,就是评论中的表情存不进去数据库。如果你也遇到了此类问题,可以参考以下我的处理方法:#删除颜表情def remove_emoji(comment,restr=''): #过滤表情 try: co ...

2018-12-02 12:50:34 1134

原创 爬取孔夫子旧书网的评论

这次带来的是爬取孔夫子旧书网的书店评论,并写入txt文档和数据库这个用到了json模块json模块是格式转换模块,json是为了将爬取下来的评论网页解析成Python方便处理的字典格式。json有.load()和.loads(),dump()和dumps()这几种方法。loads()是将json格式转换成Python方便处理的字典格式。dumps()方法是将Python的字典格式转换成j...

2018-11-25 14:35:46 663 1

原创 python写入MySQL数据库

这次给大家带来的是将python爬取的数据写入数据库将爬取得数据写入数据库的步骤:连接数据库;创建表将数据写入数据库;关闭数据库。1.连接数据库在连接自己的数据库之前我们应先导入import MySQLdb模块host:自己的主机号,一般写127.0.0.1就可以了port:端口号user:rootpasswd:密码db:连接的数据库名称charset:编码...

2018-11-15 21:22:05 25494 2

原创 爬取小说

这次带来的是爬取一个网站的多个页面的小说并每本小说写入一个txt文档获取网站网址爬取小说的链接爬取目录的链接爬取各章小说的目录和内容1.网站网址http://www.biquge.com.tw/2.爬取小说的链接爬取小说的链接可以获取到每本小说,链接作为获取目录链接的入口url1 = 'http://www.biquge.com.tw/'html = requests.ge...

2018-11-11 13:19:50 854 1

原创 bs4爬取漫画并写入TXT文档

今天带来的是爬取漫画网站上的漫画信息及其链接这次会用到bs4,也就是Beautiful Soup我们先介绍一下**Beautiful Soup**:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.对象种类可以归纳为四种:...

2018-11-04 17:54:24 687

原创 Python爬取多页糗事百科

这次带来的是如何爬取糗事百科 且 写入txt文档大家都知道,糗事百科可以带给大家很多快乐。在这里,我们将实现对其内容的爬取,将这些好笑的段子记录下来,可以让我们打发无聊或没网时的时间。当爬取我们想要的内容时,几乎都离不开这几个步骤:1、网站地址;2、获取其源代码;3、匹配想要的内容一、网站地址我们爬取的是糗事百科里的段子,所以糗事百科的网址奉上(https://www.qiushi...

2018-11-04 17:51:26 237

原创 爬取百度贴吧图片

本次文章内容是爬取贴吧图片,希望对大家有所帮助一、 获取要爬取的贴吧的网址 打开浏览器,找到我们想爬取的贴吧,获取其网址 ![在这里插入图片描述](https://img-blog.csdn.net/20181018195737362?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzQzNDQ1...

2018-10-19 22:07:02 408

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除