avnzi48286-CSDN博客

转载用scikit-learn估计值分类——近邻算法（KNN）

用scikit-learn估计值分类主要是为数据挖掘搭建通用的框架。有了这个框架之后，增加了算法的泛化性，减少了数据挖掘的复杂性。用scikit-learn估计值分类有这三个方面： 1. 估计器（estimator）：用于分类、聚类和回归分析。 2. 转换器（transformer）：用于数据的预处理和数据的...

2017-05-19 09:43:00 406

转载 python算法演练——One Rule 算法

这样某一个特征只有0和1两种取值，数据集有三个类别。当取0的时候，假如类别A有20个这样的个体，类别B有60个这样的个体，类别C有20个这样的个体。所以，这个特征为0时，最有可能的是类别B，但是，还是有40个个体不在B类别中，所以，将这个特征为0分到类别B中的错误率是40%。然后，将所有的特征统计完，计算所有的特征错误率，再选择错误率最低的特征作为唯一的分类准则——这就是OneR。...

2017-05-16 22:34:00 336

转载数据挖掘——亲和性分析

亲和性分析根据样本个体之间的相似度，确定它们关系的亲疏。应用场景:1.向网站用户提供多样化的服务或投放定向广告。2.为了向用户推荐电影或商品3.根据基因寻找有亲缘关系的人比如：统计顾客购买了商品1，然后再购买商品2的比率，算相似度。import numpy as npdataset_filename = "affinity_dataset.txt"x = ...

2017-05-13 21:30:00 275

转载 Scraper_compare（'NoneType' object has no attribute 'group'）

三种解析网页的方法各有所用，各有特点。通过，对比三种方式更能明白在什么情况之下采用什么方法。其中，运行代码时，可能会遇到一个bug（results[field] = re.search('<tr id="places_%s__row">.*?<td class="w2p_fw">(.*?)</td>' % field, html).group()...

2017-05-12 10:08:00 154

转载 Scraper——BeautifulSoup and LXML

爬虫解析方式除了正则表达式，还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多，且要简洁明白一些。但是，由于它是用python编写出来的包，速度会慢一些。# 数据抓取——BeautifulSoup包'''官方文档：https://www.crummy.com/software/BeautifulS...

2017-05-10 10:51:00 148

转载 Scraping_regex

上面链接爬虫只是能将我们所需的网页下载下来，但是，我们没办法得到我们想要的数据。因此，我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器，对数据进行提取。数据抓取（Scraping）有三种方式：1.正则表达式；2.第三方包——BeautifulSoup；3.lxml模块1.正则表达式（regex）方法。'''数据抓取：从网页中抓...

2017-05-07 10:09:00 105

转载 Linux：sudo，没有找到有效的 sudoers 资源。

第一次遇到这个问题时，自己误打误撞解决了。但是，当第二次遇到的时候，却不知道怎么办才好了。所以，百度 Google 了一下，加上自己总结知道了解决的办法。首先，这是因为用户的权限不够导致的。使用 ls -l /etc/passwd 查看所有用户及权限。只有可读权限（r）,说明用户的权限不够。因此，我们可以用以下方法修改用户权限： 1. su root ...

2017-05-07 09:46:00 1640

转载 Crawler——链接爬虫

对数据的提取和收集也是数据分析中一大重点，所以，学习爬虫是非常有用的。完成数据采集，对后面的数据分析做下基础。今天，要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结，便于相互学习。#! /usr/bin/env python# -*- coding:utf-8 -*-import reimport...

2017-05-05 23:40:00 225

转载 Python中关于CSV文件中的I/O

这用pandas包进行数据处理的时候，会遇到一些文件的输出与写入。比如csv文件，是一种比较常见的文件，它以逗号作为分隔符。所以，总结一下运用pandas数据处理包，处理csv文件的输出与写入方式。# 数据读取import pandas as pd# 这是文件有标头的df = pd.read_table("ex1.csv", sep= ",")# print df...

2017-05-01 22:10:00 150

转载 Python数据处理进阶——pandas

对于python进行数据处理来说，pandas式一个不得不用的包，它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习，再加以自己的理解，写下这篇随笔，与一起喜欢数据分析的朋友分享和相互学习。import numpy as npimport pandas as pdfrom pandas import Series, DataFr...

2017-04-25 15:44:00 171

转载 Python数据处理——numpy_3

通过前面两次的学习，基本上对numpy有了一定的认识，所以，接下来进一步对numpy学习。同时，最后以一个有趣的例子加深对numpy的理解。import numpy as npxarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])cond = np.arr...

2017-04-24 08:45:00 148

转载 python数据处理——numpy_2

上一次的学习了numpy的一些基础操作，今天接着学习numpy的高级索引、轴对换数值转置以及作图。#花式索引import numpy as np'''t = np.empty((8,4)) #建立一个8行4列的空数组for i in range(8): t[i] = i'''#print t#print t[[4, 3, 0, 6]] 选取特...

2017-04-20 18:53:00 81

转载 Python数据处理——numpy_1

python中数据处理最基础的一个包——numpy。它能很好的进行数据准备，类似与R语言中的数据框（DataFrame）一样。今天，就来从最基础的开始学习。import numpy as npdata = [[0.95, -0.25, -0.89], [0.56, 0.24, 0.91]]data = np.array(data)#print data * 10#pri...

2017-04-18 08:49:00 126

avnzi48286的专栏