自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 用scikit-learn估计值分类——近邻算法(KNN)

用scikit-learn估计值分类主要是为数据挖掘搭建通用的框架。有了这个框架之后,增加了算法的泛化性,减少了数据挖掘的复杂性。用scikit-learn估计值分类有这三个方面: 1. 估计器(estimator):用于分类、聚类和回归分析。 2. 转换器(transformer):用于数据的预处理和数据的...

2017-05-19 09:43:00 404

转载 python算法演练——One Rule 算法

这样某一个特征只有0和1两种取值,数据集有三个类别。当取0的时候,假如类别A有20个这样的个体,类别B有60个这样的个体,类别C有20个这样的个体。所以,这个特征为0时,最有可能的是类别B,但是,还是有40个个体不在B类别中,所以,将这个特征为0分到类别B中的错误率是40%。然后,将所有的特征统计完,计算所有的特征错误率,再选择错误率最低的特征作为唯一的分类准则——这就是OneR。...

2017-05-16 22:34:00 333

转载 数据挖掘——亲和性分析

亲和性分析根据样本个体之间的相似度,确定它们关系的亲疏。应用场景:1.向网站用户提供多样化的服务或投放定向广告。2.为了向用户推荐电影或商品3.根据基因寻找有亲缘关系的人比如:统计顾客购买了商品1,然后再购买商品2的比率,算相似度。import numpy as npdataset_filename = "affinity_dataset.txt"x = ...

2017-05-13 21:30:00 270

转载 Scraper_compare('NoneType' object has no attribute 'group')

三种解析网页的方法各有所用,各有特点。通过,对比三种方式更能明白在什么情况之下采用什么方法。其中,运行代码时,可能会遇到一个bug(results[field] = re.search('<tr id="places_%s__row">.*?<td class="w2p_fw">(.*?)</td>' % field, html).group()...

2017-05-12 10:08:00 152

转载 Scraper——BeautifulSoup and LXML

爬虫解析方式除了正则表达式,还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多,且要简洁明白一些。但是,由于它是用python编写出来的包,速度会慢一些。# 数据抓取——BeautifulSoup包'''官方文档:https://www.crummy.com/software/BeautifulS...

2017-05-10 10:51:00 146

转载 Scraping_regex

上面链接爬虫只是能将我们所需的网页下载下来,但是,我们没办法得到我们想要的数据。因此,我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器,对数据进行提取。数据抓取(Scraping)有三种方式:1.正则表达式;2.第三方包——BeautifulSoup;3.lxml模块1.正则表达式(regex)方法。'''数据抓取:从网页中抓...

2017-05-07 10:09:00 101

转载 Linux:sudo,没有找到有效的 sudoers 资源。

第一次遇到这个问题时,自己误打误撞解决了。但是,当第二次遇到的时候,却不知道怎么办才好了。所以,百度 Google 了一下,加上自己总结知道了解决的办法。首先,这是因为用户的权限不够导致的。使用 ls -l /etc/passwd 查看所有用户及权限。只有可读权限(r),说明用户的权限不够。因此,我们可以用以下方法修改用户权限: 1. su root ...

2017-05-07 09:46:00 1632

转载 Crawler——链接爬虫

对数据的提取和收集也是数据分析中一大重点,所以,学习爬虫是非常有用的。完成数据采集,对后面的数据分析做下基础。今天,要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结,便于相互学习。#! /usr/bin/env python# -*- coding:utf-8 -*-import reimport...

2017-05-05 23:40:00 221

转载 Python中关于CSV文件中的I/O

这用pandas包进行数据处理的时候,会遇到一些文件的输出与写入。比如csv文件,是一种比较常见的文件,它以逗号作为分隔符。所以,总结一下运用pandas数据处理包,处理csv文件的输出与写入方式。# 数据读取import pandas as pd# 这是文件有标头的df = pd.read_table("ex1.csv", sep= ",")# print df...

2017-05-01 22:10:00 148

转载 Python数据处理进阶——pandas

对于python进行数据处理来说,pandas式一个不得不用的包,它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习,再加以自己的理解,写下这篇随笔,与一起喜欢数据分析的朋友分享和相互学习。import numpy as npimport pandas as pdfrom pandas import Series, DataFr...

2017-04-25 15:44:00 168

转载 Python数据处理——numpy_3

通过前面两次的学习,基本上对numpy有了一定的认识,所以,接下来进一步对numpy学习。同时,最后以一个有趣的例子加深对numpy的理解。import numpy as npxarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])cond = np.arr...

2017-04-24 08:45:00 145

转载 python数据处理——numpy_2

上一次的学习了numpy的一些基础操作,今天接着学习numpy的高级索引、轴对换数值转置以及作图。#花式索引import numpy as np'''t = np.empty((8,4)) #建立一个8行4列的空数组for i in range(8): t[i] = i'''#print t#print t[[4, 3, 0, 6]] 选取特...

2017-04-20 18:53:00 79

转载 Python数据处理——numpy_1

python中数据处理最基础的一个包——numpy。它能很好的进行数据准备,类似与R语言中的数据框(DataFrame)一样。今天,就来从最基础的开始学习。import numpy as npdata = [[0.95, -0.25, -0.89], [0.56, 0.24, 0.91]]data = np.array(data)#print data * 10#pri...

2017-04-18 08:49:00 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除