2017年08月_Watch_dou

原创 ggplot2之Layer—— geoms（三）

接着上次继续说说。1. geom_hex 、stat_bin_hex——二进制计数器的六边形热图2. geom_freqpoly 、geom_histogram 、stat_bin——直方图和频率多边形3. geom_jitter——激动点数4. geom_crossbar 、geom_errorbar 、geom_linerange 、geom_pointrange——垂直间隔：线，横杠和错误栏5

2017-08-31 15:25:49 2633

原创 ggplot2之Layer—— geoms（二）

上次谈到了layer中跟geoms_有关的参考线、条形图、2d bin计数的热图、空图、盒式图。这次谈一些其他的图形及参数。1. geom_contour 、stat_contour —— 等高线2. geom_count、 stat_sum—— 计数重叠点3. geom_density_2d 、stat_density_—— 2d二维密度估计的等高线4. geom_density 、stat_de

2017-08-30 19:54:05 5403 1

原创 ggplot2之Layer—— geoms（一）

上次讲到了一些基础知识，这次说一说ggplot2图层中的geoms，由于geoms内容太多，所以分6次说。图层结合了数据，映射，几何（对象），统计（变换）和位置调整。通常，将使用geom_函数创建图层，如果需要，覆盖默认位置和stat。1. geom_abline 、geom_hline 、geom_vline——参考线：水平，垂直和对角线2. geom_bar 、geom_col 、stat_

2017-08-29 20:21:51 4742

原创 ggplot2的基本绘图知识

ggplot2画图的强大之处想必用过R的都有所了解，关于ggplot2这个包就有专门的书籍介绍。 ggplot2基本要素：数据（Data）和映射（Mapping）几何对象（Geometric）标尺（Scale）统计变换（Statistics）坐标系统（Coordinante）图层（Layer）分面（Facet）主题（Theme）关于ggplot2的讲解会持续更新

2017-08-29 17:47:42 2315

原创熵的通俗理解

上次说了有关熵、条件熵、相对熵、互信息的概念及其之间的关系。为了更好的了解熵，这次谈一谈熵的通俗理解。1. 公式及其含义 2.信息量 3. 由信息量想到的 4. 信息熵 1. 公式及其含义熵的公式：熵的含义：样本集合不纯度，熵越小，集合不纯度越低；知识的不确定性，熵越小，不确定性越小；系统的复杂度，熵越大，系统越复杂。（系统越复杂，出现不同情况越多，信息量越大，熵越大。）2.

2017-08-28 19:21:34 8010

原创决策树中的熵（一）

通俗介绍决策树中关于熵的理解，包括熵、条件熵、相对熵、互信息以及他们之间关系的推导，通俗理解（后文会继续）。本次只说他们之间的关系。1. 熵 2. 条件熵 3. 相对熵 4. 互信息 5. 相互关系1. 熵样本集合不纯度，熵越小，集合不纯度越低；知识的不确定性，熵越小，不确定性越小。（为什么？下期解说。）2. 条件熵H(X,Y)表示在已知随机变量X的条件下，随机变量Y的不确定性。（条

2017-08-27 11:43:30 8090

原创 Python网络数据采集——正则表达式

计算机科学里曾经有个笑话：“如果你有一个问题打算用正则表达式（regular expression，通常简写regex）来解决，那么就是两个问题了。” regex——你值得拥有！学正则表达式不一定只会用在爬虫，当然爬虫也未必会用到正则表达式（能找到捷径就不需要啊），学正则可以处理一些杂乱的文本，从杂乱的信息中找出些许规律性并批量过滤出自己想要的东东。可

2017-08-23 11:58:44 1052

原创 Anaconda3中出现sklearn.model_selection不存在问题

Anaconda3中from sklearn.model_selection import train_test_split出现importError: No module named ‘sklearn.model_selection’。在电脑开始输入Anaconda,打开Anaconda Prompt输入：conda list 查阅sklearn版本信息，发现版本是0.17.1，此版本中是不包

2017-08-21 17:20:42 18154 1

原创 Python网络数据采集——BeautifulSoup

当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时，他有一段著名的回答：“很简单，你只要用锤子把石头上不像大卫的地方敲掉就行了。” 虽然网络数据采集和大理石雕刻大相径庭，但是当我们从复杂的网页中寻觅信息时，也必须持有类似的态度。在我们找到目标信息之前，有很多技巧可以帮我们“敲掉”网页上那些不需要的信息。这一章我们将介绍解析复杂的HTML 页面的方法，从中抽取出我们需要的信息。1.Bea

2017-08-21 13:10:30 673

原创爬取58上的大量二手数据并保存在MongoDB中

爬取58二手分类商品的标题、价格、浏览情况等数据。from bs4 import BeautifulSoupimport requestsimport timeimport pymongoimport refrom numpy import *#####获取二手标签链接start_url = 'http://cs.58.com/sale.shtml'def get_chanel_url

2017-08-20 23:59:22 705

原创安装MongoDB并安装PyCharm的MongoDB插件

本次所有安装主要是在win7上。安装MongoDB；安装第三方库Pymongo；安装PyCharm的MongoDB插件。1. 安装MongoDB1）下载MongoDB我的电脑是64位，根据情况选择版本。安装mongodb-win32-x86_64-2008plus-ssl-3.4.7-signed.msi一路ok就可以了。2）设置MongoDB环境我们先设置一个目录来保存数据，如果使

2017-08-20 09:55:58 23927 1

原创 58批量数据爬取

爬取58上100页的某商品分类信息，代码如下：from bs4 import BeautifulSoupimport requestsimport timeimport lxmldef get_links_from(who_sells,page=1): urls = [] list_view = 'http://xa.58.com/pbdn/'+str(who_sells)+'

2017-08-17 13:57:22 1646

思过留痕