- 博客(12)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 ggplot2之Layer—— geoms(三)
接着上次继续说说。1. geom_hex 、stat_bin_hex——二进制计数器的六边形热图2. geom_freqpoly 、geom_histogram 、stat_bin——直方图和频率多边形3. geom_jitter——激动点数4. geom_crossbar 、geom_errorbar 、geom_linerange 、geom_pointrange——垂直间隔:线,横杠和错误栏5
2017-08-31 15:25:49 2633
原创 ggplot2之Layer—— geoms(二)
上次谈到了layer中跟geoms_有关的参考线、条形图、2d bin计数的热图、空图、盒式图。这次谈一些其他的图形及参数。1. geom_contour 、stat_contour —— 等高线2. geom_count、 stat_sum—— 计数重叠点3. geom_density_2d 、stat_density_—— 2d二维密度估计的等高线4. geom_density 、stat_de
2017-08-30 19:54:05 5403 1
原创 ggplot2之Layer—— geoms(一)
上次讲到了一些基础知识,这次说一说ggplot2图层中的geoms,由于geoms内容太多,所以分6次说。 图层结合了数据,映射,几何(对象),统计(变换)和位置调整。通常,将使用geom_函数创建图层,如果需要,覆盖默认位置和stat。1. geom_abline 、geom_hline 、geom_vline——参考线:水平,垂直和对角线2. geom_bar 、geom_col 、stat_
2017-08-29 20:21:51 4742
原创 ggplot2的基本绘图知识
ggplot2画图的强大之处想必用过R的都有所了解,关于ggplot2这个包就有专门的书籍介绍。 ggplot2基本要素: 数据(Data)和映射(Mapping) 几何对象(Geometric) 标尺(Scale) 统计变换(Statistics) 坐标系统(Coordinante) 图层(Layer) 分面(Facet) 主题(Theme) 关于ggplot2的讲解会持续更新
2017-08-29 17:47:42 2315
原创 熵的通俗理解
上次说了有关熵、条件熵、相对熵、互信息的概念及其之间的关系。为了更好的了解熵,这次谈一谈熵的通俗理解。1. 公式及其含义 2.信息量 3. 由信息量想到的 4. 信息熵 1. 公式及其含义熵的公式:熵的含义:样本集合不纯度,熵越小,集合不纯度越低; 知识的不确定性,熵越小,不确定性越小; 系统的复杂度,熵越大,系统越复杂。(系统越复杂,出现不同情况越多,信息量越大,熵越大。)2.
2017-08-28 19:21:34 8010
原创 决策树中的熵(一)
通俗介绍决策树中关于熵的理解,包括熵、条件熵、相对熵、互信息以及他们之间关系的推导,通俗理解(后文会继续)。本次只说他们之间的关系。1. 熵 2. 条件熵 3. 相对熵 4. 互信息 5. 相互关系1. 熵样本集合不纯度,熵越小,集合不纯度越低;知识的不确定性,熵越小,不确定性越小。(为什么?下期解说。)2. 条件熵H(X,Y)表示在已知随机变量X的条件下,随机变量Y的不确定性。(条
2017-08-27 11:43:30 8090
原创 Python网络数据采集——正则表达式
计算机科学里曾经有个笑话:“如果你有一个问题打算用正则表达式(regular expression,通常简写regex)来解决,那么就是两个问题了。” regex——你值得拥有!学正则表达式不一定只会用在爬虫,当然爬虫也未必会用到正则表达式(能找到捷径就不需要啊),学正则可以处理一些杂乱的文本,从杂乱的信息中找出些许规律性并批量过滤出自己想要的东东。可
2017-08-23 11:58:44 1052
原创 Anaconda3中出现sklearn.model_selection不存在问题
Anaconda3中from sklearn.model_selection import train_test_split出现importError: No module named ‘sklearn.model_selection’。 在电脑开始输入Anaconda,打开Anaconda Prompt输入:conda list 查阅sklearn版本信息,发现版本是0.17.1,此版本中是不包
2017-08-21 17:20:42 18154 1
原创 Python网络数据采集——BeautifulSoup
当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时,他有一段著名的回答:“很简单,你只要用锤子把石头上不像大卫的地方敲掉就行了。” 虽然网络数据采集和大理石雕刻大相径庭,但是当我们从复杂的网页中寻觅信息时,也必须持有类似的态度。在我们找到目标信息之前,有很多技巧可以帮我们“敲掉”网页上那些不需要的信息。这一章我们将介绍解析复杂的HTML 页面的方法,从中抽取出我们需要 的信息。1.Bea
2017-08-21 13:10:30 673
原创 爬取58上的大量二手数据并保存在MongoDB中
爬取58二手分类商品的标题、价格、浏览情况等数据。from bs4 import BeautifulSoupimport requestsimport timeimport pymongoimport refrom numpy import *#####获取二手标签链接start_url = 'http://cs.58.com/sale.shtml'def get_chanel_url
2017-08-20 23:59:22 705
原创 安装MongoDB并安装PyCharm的MongoDB插件
本次所有安装主要是在win7上。安装MongoDB;安装第三方库Pymongo;安装PyCharm的MongoDB插件。1. 安装MongoDB1)下载MongoDB我的电脑是64位,根据情况选择版本。 安装mongodb-win32-x86_64-2008plus-ssl-3.4.7-signed.msi一路ok就可以了。2)设置MongoDB环境 我们先设置一个目录来保存数据,如果使
2017-08-20 09:55:58 23927 1
原创 58批量数据爬取
爬取58上100页的某商品分类信息,代码如下:from bs4 import BeautifulSoupimport requestsimport timeimport lxmldef get_links_from(who_sells,page=1): urls = [] list_view = 'http://xa.58.com/pbdn/'+str(who_sells)+'
2017-08-17 13:57:22 1646
空空如也
用excel,上面那个表格如何转化为下面的那张表格???
2019-02-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人