自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 学习如何存储你爬取的数据

今天来学习下另一个库sqlite3,它可以用来操作数据库,可以将我们爬取后的数据存储起来。这是很重要的一步,即使你会爬取数据,你也要用简洁明了的方式把它存储起来,供我们自然语言处理以及一些其他的数据分析操作 欢迎关注公众号:老白和他的爬虫 1.安装Datum-Lite 在操作数据库的过程中,我们需要一个可视化的软件来展示,之前使用Windows系统时,我使用的是SQLite来显示的,非常方便,...

2019-03-26 15:16:48 860

原创 基础学习——BeautifulSoup篇(2)

这一篇文章接在上一篇 基础学习——BeautifulSoup篇(1) 之后,今天来继续学习BeautifulSoup 4.遍历文档树 4.7父节点和兄弟节点

2019-03-20 10:20:59 198

原创 使用python画k均值分类图

欢迎关注公众号:老白和他的爬虫 昨天帮小余同学用python画了下k均值分类图,原理比较简单在这里分享一下。 首先小余同学已经用spss做好了族群分类,分类结果如图所示 一共有100条结果,这里只截取了部分,今天的程序就是要用python画出这个分类图 1.明确需求 我们需要把100条记录按类别显示在坐标系中,每一个族群需要使用不同的颜色显示,并且我们还需要计算出来每一个族群的中心点,并将这...

2019-03-18 13:21:37 1961

原创 基础学习——BeautifulSoup篇(1)

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。换句话说,它是我们解析网页的利器 欢迎关注公众号:老白和他的爬虫 BeautifulSoup3 目前已经停止开发,今天学习的是BeautifulSoup4 1.简单入手 我们以豆瓣网为例,编辑下面这段代码 from bs4 import Be...

2019-03-18 13:20:13 339

原创 一个简单的爬虫——新闻爬虫

公众号的第一篇文章,就先来介绍一下我做的最多的也是最简单的新闻爬虫吧。这个爬虫本身是用java写的,搭载在我之前项目的服务器上,今天用python实现一下。这个爬虫我也给别人讲过很多次,在双创之星的舞台上讲过,在新生导航课上讲过(两次),在课堂上讲过。其实现在回头看一下这个爬虫真的很low很简单,但好歹也是我花了很久学习的,今天就系统的用python来实现一下吧。 欢迎公众号关注:老白和他的爬...

2019-03-18 13:17:59 6753 6

原创 markdown语法参考

markdown语法参考 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。 新的改变 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客: 全新的界面设...

2019-03-18 13:15:40 189

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除