2014年04月_浅唱书令

原创【Python】网络爬虫（一）：pyquery一瞥

1.pyquery简介python中的pyquery模块语法与jquery相近，可用来解析HTML文件。官方文档地址：https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素，使得解析HTML文件极为方便。2.实例2.1 爬取豆瓣电影页面中主演右键chrome中的审查元素，观察到主演的标

2014-04-29 20:49:51 4682

原创【数据挖掘】分类之Naïve Bayes

1.算法简介朴素贝叶斯（Naive Bayes）是无监督学习的一种常用算法，易于实现，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑。本文以拼写检查作为例子，讲解Naive Bayes分类器是如何实现的。对于用户输入的一个单词（words），拼写检查试图推断出最有可能的那个正确单词（correct）。当然，输入的单词有可能本身就是正确的。比如，输入的单词thew，用户

2014-04-28 16:51:54 8034 2

原创【数据挖掘】分类之decision tree

1. ID3 算法ID3 算法是一种典型的决策树（decision tree）算法，C4.5, CART都是在其基础上发展而来。决策树的叶子节点表示类标号，非叶子节点作为属性测试条件。从树的根节点开始，将测试条件用于检验记录，根据测试结果选择恰当的分支；直至到达叶子节点，叶子节点的类标号即为该记录的类别。ID3采用信息增益（information gain）作为分裂属性

2014-04-24 08:52:37 7208 4

原创【数据挖掘】聚类之k-means

1.算法简述分类是指分类器（classifier）根据已标注类别的训练集，通过训练可以未知类别的样本进行分类，被成为监督学习（supervised learning）。如果训练集的样本没有标注类别，那么就需要用到聚类。聚类是把相似的样本聚成一类，这种相似性通常以距离来度量。聚类被称为无监督学习（unspervised learning）。k-means是聚类算法中常用的一种

2014-04-18 21:05:03 9132 1

原创【数据挖掘】分类之kNN

1.算法简介knn的思想挺简单的：计算待分类的数据点与训练集所有样本点，取距离最近的k个样本；统计这k个样本的类别数量；根据多数表决方案，取数量最多的那一类作为待测样本的类别。距离度量可采用Euclidean distance，Manhattan distance和cosine。用Iris数据集作为测试，代码参考[1]import numpy as npimpor

2014-04-15 19:47:07 7630 3

原创【算法】堆排序

1.算法概述相较于归并排序，堆排序的时间复杂度也为O(n*log n)，但空间复杂度远小于归并排序。堆排序用到了特别实用的数据结构——堆（heap），关于堆的详细介绍参看这里。堆排序基本思想：将待排序表建成一个大顶堆；取堆顶元素与堆的最后一个元素交换，删除最后一个元素，向下调整使得继续保持堆的特性；如此往复，直至堆剩下最后一个元素待排序表(26,5,77,1,6

2014-04-08 19:44:43 1461

听雨草堂

原创【Python】网络爬虫（一）：pyquery一瞥

原创【数据挖掘】分类之Naïve Bayes

原创【数据挖掘】分类之decision tree

原创【数据挖掘】聚类之k-means

原创【数据挖掘】分类之kNN

原创【算法】堆排序

空空如也

空空如也

原创 【Python】网络爬虫（一）：pyquery一瞥

原创 【数据挖掘】分类之Naïve Bayes

原创 【数据挖掘】分类之decision tree

原创 【数据挖掘】聚类之k-means

原创 【数据挖掘】分类之kNN

原创 【算法】堆排序

空空如也

空空如也

原创【Python】网络爬虫（一）：pyquery一瞥

原创【数据挖掘】分类之Naïve Bayes

原创【数据挖掘】分类之decision tree

原创【数据挖掘】聚类之k-means

原创【数据挖掘】分类之kNN

原创【算法】堆排序