自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

听雨草堂

随便谈谈

  • 博客(6)
  • 收藏
  • 关注

原创 【Python】网络爬虫(一):pyquery一瞥

1.pyquery简介python中的pyquery模块语法与jquery相近,可用来解析HTML文件。官方文档地址:https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素,使得解析HTML文件极为方便。2.实例2.1 爬取豆瓣电影页面中主演右键chrome中的审查元素,观察到主演的标

2014-04-29 20:49:51 4682

原创 【数据挖掘】分类之Naïve Bayes

1.算法简介朴素贝叶斯(Naive Bayes)是无监督学习的一种常用算法,易于实现,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。本文以拼写检查作为例子,讲解Naive Bayes分类器是如何实现的。对于用户输入的一个单词(words),拼写检查试图推断出最有可能的那个正确单词(correct)。当然,输入的单词有可能本身就是正确的。比如,输入的单词thew,用户

2014-04-28 16:51:54 8034 2

原创 【数据挖掘】分类之decision tree

1. ID3 算法ID3 算法是一种典型的决策树(decision tree)算法,C4.5, CART都是在其基础上发展而来。决策树的叶子节点表示类标号,非叶子节点作为属性测试条件。从树的根节点开始,将测试条件用于检验记录,根据测试结果选择恰当的分支;直至到达叶子节点,叶子节点的类标号即为该记录的类别。ID3采用信息增益(information gain)作为分裂属性

2014-04-24 08:52:37 7208 4

原创 【数据挖掘】聚类之k-means

1.算法简述分类是指分类器(classifier)根据已标注类别的训练集,通过训练可以未知类别的样本进行分类,被成为监督学习(supervised learning)。如果训练集的样本没有标注类别,那么就需要用到聚类。聚类是把相似的样本聚成一类,这种相似性通常以距离来度量。聚类被称为无监督学习(unspervised learning)。k-means是聚类算法中常用的一种

2014-04-18 21:05:03 9132 1

原创 【数据挖掘】分类之kNN

1.算法简介knn的思想挺简单的:计算待分类的数据点与训练集所有样本点,取距离最近的k个样本;统计这k个样本的类别数量;根据多数表决方案,取数量最多的那一类作为待测样本的类别。距离度量可采用Euclidean distance,Manhattan distance和cosine。用Iris数据集作为测试,代码参考[1]import numpy as npimpor

2014-04-15 19:47:07 7630 3

原创 【算法】堆排序

1.算法概述相较于归并排序,堆排序的时间复杂度也为O(n*log n),但空间复杂度远小于归并排序。堆排序用到了特别实用的数据结构——堆(heap),关于堆的详细介绍参看这里。堆排序基本思想:将待排序表建成一个大顶堆;取堆顶元素与堆的最后一个元素交换,删除最后一个元素,向下调整使得继续保持堆的特性;如此往复,直至堆剩下最后一个元素待排序表(26,5,77,1,6

2014-04-08 19:44:43 1461

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除