python与数据挖掘
文章平均质量分 62
本专利主要介绍python的一些进阶用法,与数据挖掘、数据可视化相关的用法等。
-Heres-
他每做一件小事的时候,都像救命稻草一样抓着。有一天我一看,嚯,好家伙!他抱着的是已经让我仰望的参天大树了。
展开
-
信用卡欺诈检测机器学习案例(LR、RF)
import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinepandas 一些知识点frame=pd.DataFrame(np.arange(12).reshape((4,3)),columns=['c','a','b'],index=['D','B','C',...转载 2018-08-30 17:23:24 · 1091 阅读 · 0 评论 -
科比生涯数据集分析与预测
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.ensemble import RandomForestClassifierfrom sklearn.cross_validation import KFoldfilen...转载 2018-08-12 22:40:47 · 3512 阅读 · 4 评论 -
利用最小二乘法做线性回归
最小二乘法概述对于一元线性回归模型, 假设从总体中获取了n组观察值(x1,y1)(x1,y1)(x_1,y_1),(x2,y2)(x2,y2)(x_2,y_2),… ,(xn,yn)(xn,yn)(x_n,y_n)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟...转载 2018-05-28 16:49:42 · 6944 阅读 · 0 评论 -
K-means聚类
与回归与分类不同,聚类是无监督学习算法,无监督指的是只需要数据,不需要标记结果,试图探索和发现一些模式。比如对用户购买模式的分析(用户的行为、地址)、图像颜色分割(图像边缘)、邮件聚类(工作、财务、私人)等。聚类算法的提出比较早,是数据挖掘的一个重要模块,可以对大量数据分类并概括出每一类的特点,可用于发现共同的群体。目前也有很多种聚类算法,包括划分法、层次法、基于密度的方法、基于网格的方法等。实际...转载 2018-04-11 11:31:20 · 543 阅读 · 0 评论 -
逻辑(斯特)回归及python实现
python代码实现:from numpy import *filename='bb.txt' #文件目录def loadDataSet(): #读取数据(这里只有两个特征) dataMat = [] labelMat = [] #列表 fr = open(filename) for line in fr.readlines(): lin原创 2018-01-01 20:58:10 · 2488 阅读 · 1 评论 -
机器学习之线性回归及python实现
python代码实现:import numpy as npimport pylabdef compute_error(b,m,data): totalError = 0 #Two ways to implement this #first way # for i in range(0,len(data)): # x = data[i,0]原创 2017-12-25 23:09:10 · 987 阅读 · 0 评论 -
Mac系统下anaconda的Python3中的matplotlib的中文显示问题解决
一、Mac需要先下载simhei.ttf字体并安装,之后按照下面步骤首先将simhei.ttf拷贝到~python安装路径/site-packages/matplotlib/mpl-data/fonts/ttf目录中;首先我们在python中运行以下命令来查看你的matplotlib所在位置:字体下载http://www.font5.com.cn/font_download.php?id=151&...原创 2018-05-18 10:06:00 · 2374 阅读 · 1 评论 -
python之Pandas文本数据读取和写入
一、读取文本格式数据注:索引:将一个或者多个列返回dataframe来处理,获取列名;类型推断和数据转换:用户定义值得转换,缺失值的标记等;日期解析:包括组合功能,比如将分散在多个列中的日期数据组合成单个列;迭代:支持大文件逐块迭代,而不是一次性读取;不规整数据问题:可以跳过,清洗。二、示例操作...原创 2018-04-17 18:18:37 · 37328 阅读 · 2 评论 -
python之Pandas库——数据结构初识
一、关于pandas pandas里面的两大数据结构Series和Dataframe。 Series类似于有索引一维数组的对象,与值不同的是,它多了一个标签,所以可以根据标签取数据。同时,可以将Series看作是一个有序的字典。 Dataframe 是一个表格型的数据结构,含有一个有序的列,不同的列的数据结构可以不一样,同一列的数据类型可以是一样的。二、Series一些常见操作i...原创 2018-04-15 17:15:06 · 452 阅读 · 0 评论 -
Python使用matplotlib,numpy,scipy进行散点的平滑曲线化方法
示例说明:绘制平滑曲线代码:import matplotlib.pyplot as plt import numpy as np from scipy.interpolate import spline T = np.array([6, 7, 8, 9, 10, 11, 12]) power = np.array([1.53E+03, 5.92E+02, 2.04E+原创 2017-11-12 15:11:10 · 4821 阅读 · 0 评论 -
python matplotlib从文件中读取数据绘制折线图
说明:从文件中读取数据,绘制直线图#coding:utf-8import matplotlib.pyplot as pltimport matplotlib as mplimport numpy as npfrom matplotlib.font_manager import FontPropertiesimport matplotlib as mplmpl.rcParams['f原创 2017-11-12 15:03:27 · 19986 阅读 · 1 评论 -
python matplotlib从文件中读取数据绘制散点图
示例说明:从一个文件读取数据,绘制成散点图#coding:utf-8import matplotlib.pyplot as pltimport numpy as npimport matplotlib as mplmpl.rcParams['font.family'] = 'sans-serif'mpl.rcParams['font.sans-serif'] = 'NSimSun,T原创 2017-11-12 14:40:18 · 15147 阅读 · 2 评论 -
如何将matplotlib中全局的中文设置成宋体
配置介绍:python 3.5 ;操作系统,windows 8.1 ;步骤:1、由于matplotlib默认不支持ttc,所以可以将ttc转换ttf先。将Windows字体 simsun.ttc上传到 https://transfonter.org/ttc-unpack 在线转换成TTF,2、得到simsun.ttf和nsimsun.ttf,将两个ttf文件放到PYTHON安装目录的L...原创 2017-11-12 14:57:01 · 16484 阅读 · 6 评论 -
python socket编程之双方相互通信简单实例
实例说明:本实例实现真实局域网内两个物理主机的相互通信,两个物理主机的操作系统分别是windows8.1和windows10。实例代码:客户端import socketaddr = ('210.40.7.130',10000)#目标主机IPreaddr = ('210.40.7.145',10000)#本主机IPs = socket.socket(socket.AF_INET原创 2017-10-02 10:00:28 · 11519 阅读 · 0 评论 -
如何杀死一个python的线程
不要试图用强制方法杀掉一个python线程,这从服务设计上就存在不合理性。 多线程本用来任务的协作并发,如果你使用强制手段干掉线程,那么很大几率出现意想不到的bug。话虽然这样说,但是有时候就有这样的需求,可以python本身没有提供这样的API,所以没办法在网上找了一圈,发现了两种方法。如下:方法一:利用setDaemon(True)这个函数的特性,特性如下:主线程A中,创建了子线程原创 2017-10-04 16:45:42 · 37650 阅读 · 4 评论 -
python之多线程简单实例
一、介绍 Python通过两个标准库thread和threading提供对线程的支持。thread提供了低级别的、原始的线程以及一个简单的锁。 Thread 是threading模块中最重要的类之一,可以使用它来创建线程。有两种方式来创建线程:一种是通过继承Thread类,重写它的run方法;直接传入要运行的方法。 Thread模块是比较底层的模块,Threadin原创 2017-10-04 16:33:49 · 1267 阅读 · 0 评论 -
python matplotlib 中文显示乱码
问题描述:在使用python的绘图包matplotlib时,发现有时候图例等设置无法正常显示中文。原因:大致就是matplotlib库中没有中文字体。解决方案:我个人尝试了一下网上的不少方案,然后总结了下面这种方法。1)打开该配置文件,找到下面这行:#font.serif : Bitstream Vera Serif, New Century Schoolb原创 2017-09-19 10:38:44 · 729 阅读 · 0 评论 -
64位windows系统下对应python3.5安装matplotlib模块
1.比较推荐还是用pip来安装,用源码安装还是会比较麻烦,进入到CMD窗口下,执行python -m pip install -U pip setuptools;2.通过pip list查看pip的安装情况;3、首先要安装Numpy函数库Numpy函数库支持Python3.5,其各版本的下载网址如下: https://pypi.python.org/pypi/n原创 2017-09-18 21:26:23 · 1059 阅读 · 0 评论 -
python2和python3的区别
几乎所有的python2程序都需要一些修改才能正常的运行在python3的环境下。为了简化这个转换过程,Python3自带了一个2to3的实用脚本.这个脚本会将python2程序源文件作为输入,然后自动转换到python3.但并不是所有内容都可以自动转换。print语句python2中print是一个语句,不论想输出什么,直接放到print关键字后面即可。python3里,prin转载 2017-09-13 10:56:05 · 568 阅读 · 0 评论 -
列表(list)、元组(tuple)、字典(dict)和集合(set)的主要区别
列表(list)、元组(tuple)、字典(dict)和集合(set)具体使用可以参看博客:http://blog.csdn.net/vinsuan1993/article/details/71245757http://blog.csdn.net/vinsuan1993/article/details/71273364http://blog.csdn.net/vinsuan19转载 2017-05-06 18:08:21 · 1071 阅读 · 0 评论 -
命令行模式与python交互模式
命令行模式与python交互模式1.在命令行模式下,可以执行 python 进入 Python 交互式环境,也可以执行 python hello.py 运行一个.py 文件。2.在 Python 交互式环境下,只能输入 Python 代码并立刻执行。3.Python 交互式环境会把每一行 Python 代码的结果自动打印出来,但是,直接运行 Python 代码却不会。例:在 Pytho...原创 2017-03-21 22:46:15 · 13578 阅读 · 0 评论