- 博客(15)
- 收藏
- 关注
原创 利用python构建推荐引擎小项目实战
本次写的构建推荐引擎是一个晓得project,依赖于三个源文件:find_similar_user.py pearson_score.py euclidean_score.py以及最后的实现部分。一个json数据文件,格式如下: "John Carson": { "Inception": 2.5, "Pulp Fiction": 3.5, ...
2018-05-03 23:26:06 747 1
原创 python机器学习之--用凝聚层次聚类进行数据分组
1.什么是层次聚类def perfrom_clustering(X,connectivity,title,num_clusters=3,linkage='ward'): plt.figure() model = AgglomerativeClustering(linkage=linkage, connectivity=connectivity,n_clust...
2018-04-30 23:04:50 1680
原创 基于Python3.6编写的jieba分词组件+Scikit-Learn库+朴素贝叶斯算法小型中文自动分类程序
实验主题:大规模数字化(中文)信息资源信息组织所包含的基本流程以及各个环节执行的任务。本文所采用的分类及程序框架主要参考了这篇博客基本流程:如下图所示,和信息资源信息组织的基本流程类似,大规模数字化(中文)信息资源组织的基本流程也如下:1信息资源的预处理、2信息外部特征描述、3信息内部特征标引、4信息资源的分类、5得到序化的信息资源 图11.1在信息资源预处理环节,首先要选择处理文本的范围,建立分...
2018-03-26 20:06:39 2031 1
原创 Python利用SVM进行实例建模
一、建立时间预测器1.准备工作我们所获得的数据集主要来源于课本配套网站,我们首先看building_event_binary.txt文件中6个字符串数据的排序:星期、日期、时间、离开大楼的人数、进入大楼的人数、是否有活动前5个字段组成输入数据,我们的任务是预测大楼是否举行活动。building_event_multiclass.txt文件星期、日期、时间、离开大楼的人数、进入大楼的人数、活动类型2...
2018-03-19 19:25:39 8540 4
原创 Python利用SVM构建非线性分类器
1.用SVM构建非线性分类器 SVM为建立非线性分类器提供了许多选项,需要用不同的核函数建立非线性分类器。为了简单,考虑两种情况,当想要表示两种类型数据的曲线边界时,既可以用多项式函数,也可以用径向基函数。2.步骤如下: (1)对于第一种情况,可以用一个多项式核函数建立非线性分类器,在同样的Python文件中将params = {‘kernel’:’linear’}替换为params = ...
2018-03-14 16:05:16 4704
原创 Python构建SVM分类器(线性)
1.SVM建立线性分类器SVM用来构建分类器和回归器的监督学习模型,SVM通过对数学方程组的求解,可以找出两组数据之间的最佳分割边界。2.准备工作我们首先对数据进行可视化,使用的文件来自学习书籍配套管网。首先增加以下代码:import numpy as npimport matplotlib.pyplot as pltimport utilities# Load input datainp...
2018-03-13 22:47:45 15029 5
原创 分类与预测算法评价
1.背景分类与预测模型对训练集进行预测而得出的准确率并不能很好滴反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,哲族独立的数据集兼做测试集。模型预测效果评价通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差等指标来衡量。下面分享常用的评价指标(1)kappa统计kappa统计是比较两个或多个观测者对同一事物...
2018-03-13 21:16:42 2929
原创 Python实现人工神经网络
1..人工神经网络简介人工神经网络(Artificial Neural Networks,ANN),是模拟生物神经网络进行信息处理的一种数学模型。人工神经元模型人工神经元是人工神经网络操作的基本信息处理单位。它是人工神经网络的设计基础,一个人工神经元对输入信号X=[x1,x2,x3...xm]T的输出为y。其中Activation function(激活函数)有三种形式:阶梯函数、分段线性函数、非...
2018-03-12 22:26:21 16571 2
原创 Python实现决策树算法(一)
1.概念明晰决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个自己。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的和性问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。2.决策树的相关算法ID3算法:核心...
2018-03-11 22:51:43 997
原创 Python实现逻辑回归算法(一)
本次用Python实现逻辑回归算法,逻辑回归是应用非常广泛的一个分类及其学习算法,它将数据拟合到一个logit函数中,从而完成对事件发生的概率进行预测。本次学习笔记主要参考了《Python进行数据分析与挖掘实践》和作者@寒小阳的博客,地址如下:http://blog.csdn.net/yaoqiang2011/article/details/49123419。第一步,首先引入本次程序需要用的Pyt...
2018-03-10 23:00:15 4507 2
原创 Python数据分析与挖掘实战学习笔记(三)
本次学习笔记重点介绍数据分析中的挖掘建模:经过数据探索与数据预处理,得到了可以直接建模的数据,根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型。1.分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。1.1实现过程(1)分类是构造一个分类模型,输入样本的属性值,输出对...
2018-03-06 20:25:47 1102
原创 Python数据分析与挖掘实战学习笔记(二)
接着补充昨天的学习笔记:1. 数据规约(1) 属性规约和冰属性、逐步向前选择、向后删除、决策树归纳、主成分分析主成分分析:是一种用于连续属性的数据降维方法,它够早了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少数新变量就能够解释原始数据中的大部分变异。应用中通常是选出比原始变量个数少,能解释大部分数据中的变量的几个新变量,即所谓主成分,来代替原始变...
2018-03-04 15:45:30 816
原创 Python数据分析与挖掘实战学习笔记(一)
数据预处理1. 数据清洗(1)缺失值处理三种方法:删除记录、数据插补、不处理常见插补方法:均值/中位数/众数插补、使用固定值/期望值、回归方法(根据已有数据和其他与其有关变量等建立拟合模型来预测)、插值法(利用已知点建立合适的插值函数,如拉格朗日函数)我们以餐厅销量数据为例,使用拉格朗日插值法进行缺失值处理 ,使用缺失值前后各5个未缺失数据参与建模,得出结果如下。应用拉格朗日插值法代码如下...
2018-03-03 21:22:06 8843 2
原创 利用Beautifulsoup+Xpath爬取安居客官网全国600多城市二手房信息并存储mongodb
首先给我们爬虫做个知识点的简介: 网页解析库:Beautifulsoup、xpath 请求库:requests 数据存储:pymongo分析目标网站:安居客官网 我们从以这些城市作为起始站点,获取每一个城市二手房的链接,从Chrome审查看一下: 我们可以看到这些城市的‘href’元素是他们的下一级页面的url,总共有600多个城市,也就是我们可以找到600多个url。 但
2018-01-25 23:38:56 1319
转载 python多进程学习笔记
multiprocessing模块multiprocessing包是Python中的多进程管理包。它与 threading.Thread类似,可以利用multiprocessing.Process对象来创建一个进程。该进程可以允许放在Python程序内部编写的函数中。该Process对象与Thread对象的用法相同,拥有is_alive()、join([timeout])、run()、st
2018-01-24 16:05:28 194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人