自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

思过留痕

乘兴所至 心无旁及

  • 博客(12)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 ggplot2之Layer—— geoms(三)

接着上次继续说说。1. geom_hex 、stat_bin_hex——二进制计数器的六边形热图2. geom_freqpoly 、geom_histogram 、stat_bin——直方图和频率多边形3. geom_jitter——激动点数4. geom_crossbar 、geom_errorbar 、geom_linerange 、geom_pointrange——垂直间隔:线,横杠和错误栏5

2017-08-31 15:25:49 2633

原创 ggplot2之Layer—— geoms(二)

上次谈到了layer中跟geoms_有关的参考线、条形图、2d bin计数的热图、空图、盒式图。这次谈一些其他的图形及参数。1. geom_contour 、stat_contour —— 等高线2. geom_count、 stat_sum—— 计数重叠点3. geom_density_2d 、stat_density_—— 2d二维密度估计的等高线4. geom_density 、stat_de

2017-08-30 19:54:05 5403 1

原创 ggplot2之Layer—— geoms(一)

上次讲到了一些基础知识,这次说一说ggplot2图层中的geoms,由于geoms内容太多,所以分6次说。 图层结合了数据,映射,几何(对象),统计(变换)和位置调整。通常,将使用geom_函数创建图层,如果需要,覆盖默认位置和stat。1. geom_abline 、geom_hline 、geom_vline——参考线:水平,垂直和对角线2. geom_bar 、geom_col 、stat_

2017-08-29 20:21:51 4742

原创 ggplot2的基本绘图知识

ggplot2画图的强大之处想必用过R的都有所了解,关于ggplot2这个包就有专门的书籍介绍。 ggplot2基本要素: 数据(Data)和映射(Mapping) 几何对象(Geometric) 标尺(Scale) 统计变换(Statistics) 坐标系统(Coordinante) 图层(Layer) 分面(Facet) 主题(Theme) 关于ggplot2的讲解会持续更新

2017-08-29 17:47:42 2315

原创 熵的通俗理解

上次说了有关熵、条件熵、相对熵、互信息的概念及其之间的关系。为了更好的了解熵,这次谈一谈熵的通俗理解。1. 公式及其含义 2.信息量 3. 由信息量想到的 4. 信息熵 1. 公式及其含义熵的公式:熵的含义:样本集合不纯度,熵越小,集合不纯度越低; 知识的不确定性,熵越小,不确定性越小; 系统的复杂度,熵越大,系统越复杂。(系统越复杂,出现不同情况越多,信息量越大,熵越大。)2.

2017-08-28 19:21:34 8010

原创 决策树中的熵(一)

通俗介绍决策树中关于熵的理解,包括熵、条件熵、相对熵、互信息以及他们之间关系的推导,通俗理解(后文会继续)。本次只说他们之间的关系。1. 熵 2. 条件熵 3. 相对熵 4. 互信息 5. 相互关系1. 熵样本集合不纯度,熵越小,集合不纯度越低;知识的不确定性,熵越小,不确定性越小。(为什么?下期解说。)2. 条件熵H(X,Y)表示在已知随机变量X的条件下,随机变量Y的不确定性。(条

2017-08-27 11:43:30 8090

原创 Python网络数据采集——正则表达式

计算机科学里曾经有个笑话:“如果你有一个问题打算用正则表达式(regular expression,通常简写regex)来解决,那么就是两个问题了。” regex——你值得拥有!学正则表达式不一定只会用在爬虫,当然爬虫也未必会用到正则表达式(能找到捷径就不需要啊),学正则可以处理一些杂乱的文本,从杂乱的信息中找出些许规律性并批量过滤出自己想要的东东。可

2017-08-23 11:58:44 1052

原创 Anaconda3中出现sklearn.model_selection不存在问题

Anaconda3中from sklearn.model_selection import train_test_split出现importError: No module named ‘sklearn.model_selection’。 在电脑开始输入Anaconda,打开Anaconda Prompt输入:conda list 查阅sklearn版本信息,发现版本是0.17.1,此版本中是不包

2017-08-21 17:20:42 18154 1

原创 Python网络数据采集——BeautifulSoup

当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时,他有一段著名的回答:“很简单,你只要用锤子把石头上不像大卫的地方敲掉就行了。” 虽然网络数据采集和大理石雕刻大相径庭,但是当我们从复杂的网页中寻觅信息时,也必须持有类似的态度。在我们找到目标信息之前,有很多技巧可以帮我们“敲掉”网页上那些不需要的信息。这一章我们将介绍解析复杂的HTML 页面的方法,从中抽取出我们需要 的信息。1.Bea

2017-08-21 13:10:30 673

原创 爬取58上的大量二手数据并保存在MongoDB中

爬取58二手分类商品的标题、价格、浏览情况等数据。from bs4 import BeautifulSoupimport requestsimport timeimport pymongoimport refrom numpy import *#####获取二手标签链接start_url = 'http://cs.58.com/sale.shtml'def get_chanel_url

2017-08-20 23:59:22 705

原创 安装MongoDB并安装PyCharm的MongoDB插件

本次所有安装主要是在win7上。安装MongoDB;安装第三方库Pymongo;安装PyCharm的MongoDB插件。1. 安装MongoDB1)下载MongoDB我的电脑是64位,根据情况选择版本。 安装mongodb-win32-x86_64-2008plus-ssl-3.4.7-signed.msi一路ok就可以了。2)设置MongoDB环境 我们先设置一个目录来保存数据,如果使

2017-08-20 09:55:58 23927 1

原创 58批量数据爬取

爬取58上100页的某商品分类信息,代码如下:from bs4 import BeautifulSoupimport requestsimport timeimport lxmldef get_links_from(who_sells,page=1): urls = [] list_view = 'http://xa.58.com/pbdn/'+str(who_sells)+'

2017-08-17 13:57:22 1646

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除