![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python学习笔记
飞鸟2010
这个作者很懒,什么都没留下…
展开
-
Python学习笔记:random模块
最近在学习Python,今天刚看到random模块,记个笔记,权当学习总结。 random模块主要用来生成随机数,可以直接使用,也可以根据需要进行调节。 要想使用random模块,首先需要引用该模块: >>> import random (1)默认情况下,random.random()会随机生成一个[0,1)范围内的实数。 >>> random.random() 0.9965881044原创 2015-08-24 20:44:41 · 764 阅读 · 0 评论 -
机器学习实战学习笔记11——FP-growth 算法
1.FP-growth算法概述1.1FP-growth算法介绍FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。1.2FP-growth算法原理FP-growth算法使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频原创 2017-01-16 20:55:10 · 950 阅读 · 0 评论 -
Python下安装配置xgboost
1.最近打算用xgboost来做Titanic练习,折腾了好一阵子才捣鼓好。下面把自己解决问题的详细过程记录下来,以供参考。 首先试了下Anaconda自带的Anaconda Prompt来安装xgboost,但遗憾的是到目前为止,该方式还不能实现xgboost的安装。 然后,在网上找了不少有关python下安装xgboost的资料贴,大多数首先提供的是github的链接,先创建C++版的xgb原创 2017-03-11 20:09:31 · 682 阅读 · 0 评论 -
Python WordCloud入门
最近一段时间在爬取文本信息,后面就要开始处理了。刚刚get了一个新的 词频统计和展示模块WordCloud。1.WordCloud安装首先,需要从github上下载WordCloud安装包https://github.com/amueller/word_cloud 其次,解压、安装WordCloud,因为我是打算将WordCloud导入Anaconda里的,所以先打开Anaconda Propmt原创 2017-03-31 10:51:39 · 6090 阅读 · 6 评论 -
Python练习之——肿瘤预测
良/恶性肿瘤预测问题属于典型的二分类问题,本文采用LR分类器来预测未知肿瘤患者的分类。本次学习任务,训练数据集有524条数据,测试数据集有174条数据。 数据集信息如下所示: 1.读取数据集,采用LR(Logistic Regression)分类器学习, 计算出不同情况下的准确率,并可视化的展示出来。具体实现代码如下所示:# -*- coding: utf-8 -*-"""Created原创 2016-11-13 22:08:00 · 5095 阅读 · 2 评论 -
Python基础知识总结(1)
最近有频繁用到python来处理数据和实现算法,但遗憾的是自己的Python基础还是不够扎实,有不少知识点还需要临时去查。今天花一晚上的时间来重新温习下Python基础,以供以后查阅。1.Python数据类型:(1)元组(Tuple)&列表(List):元组和列表都是一系列Python数据类型按照顺序组成的序列。如(1,‘abc’,0.5)是一个包含三个元素的元组。[1,’abc’,0.5]是一个典原创 2017-03-15 21:15:08 · 578 阅读 · 0 评论 -
Python基础知识(2)——格式化字符串
Python提供两种格式化方法 % 和format。1.通过%格式化字符串Python的%格式化字符串方式类似于C语言中的printf()函数。(1)格式化输出一个Tuple。(2)格式化输出一个Dict。2.通过format格式化字符串format通过{}和:来代替%。具体来说,分为通过映射(带{})来格式化和通过格式限定符 ({}中带:)格式化。2.1 通过映射格式化映射格式化方法有通过位置、通原创 2017-04-30 23:22:39 · 568 阅读 · 0 评论 -
Python 2.X 和 3.X的区别
本人python编译器用的3.4.3版本,奈何现有的代码大都是基于2.X的,故在参考之前的代码时经常会遇到兼容性问题,此次就把平时遇到的问题记录一下,权当总结。以后如再遇到新的问题,再一一添加:1.print 和 print()在python2.X中,想要输出,可以直接使用print:如print 'hello,world!'而在python3.x中,print被当做一个函数,必须要这...原创 2015-12-18 16:44:38 · 596 阅读 · 0 评论 -
Python读写json文件
1.JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。JSON采用完全独立于语言的文本格式,易于人阅读和编写,同时也易于机器解析和生成(一般用于提升网络传输速率),这些特性使JSON成为理想的数据交换语言。 2.Python中数据类型与JSON中数据类型转换关系如下表所示: 3.Python中用于序列化的有json和pickle两个模块: (1)原创 2017-04-19 20:47:06 · 1894 阅读 · 0 评论 -
Windows下Tensorflow安装
最近有需要用到Tensorflow,但在Windows下Tensorflow的安装很不友好,出现了不少问题,折腾了好久才算安装成功。在此把安装过程记录下来,以供参考。 刚开始是按照网上的帖子在线安装的,连续试了几次还是失败,就从网上(http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy 一个非常棒的Python安装包下载网址)下载了最新的tensorfl原创 2017-03-18 15:07:40 · 586 阅读 · 0 评论 -
Python数据采集之Requests
根据官方文档(http://www.python-requests.org/en/master/)介绍,Requests允许自动发送HTTP请求,而不需要手动在URL地址中添加查询字符串或对要提交的数据手动编码。Requests可以保持时刻在线和HTTP连接池自动化,最新版的Requests中已经内嵌urllib3,可以很方便地进行数据采集和处理。1.Requests基础介绍首先以github为例,原创 2017-05-08 22:23:29 · 724 阅读 · 0 评论 -
机器学习实战学习笔记10——Apriori算法
1.Apriori概述1.1 Apriori介绍Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。该算法已经被广泛的应用到消费市场价格分析,入侵检测、电商购物推荐等领域。1.2 Apriori原理关联分析是一种在大规模数据集中寻找频繁项集和关联规则的任务。该算法的基本思想是: (1)首先找出所有的频集,这些项集出现的频繁性至少原创 2017-01-13 17:28:31 · 794 阅读 · 0 评论 -
机器学习实战学习笔记9——Logistic回归
1.logistic回归概述1.1 logistic回归介绍Logistic回归是一种广义的线性回归分析模型,是研究二分类观察结果y与一些影响因素(x_1,x_2,…,x_n)之间关系的一种多变量分析方法。通常研究某些因素条件下某个结果是否发生,比如医学中根据症状来判断病人是否患有某种疾病。1.2 Logistic回归原理Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式原创 2016-12-30 21:53:19 · 595 阅读 · 0 评论 -
Python:Pandas学习笔记(1)
最近开始用python做数据分析,pandas作为python在数据分析方面的一大利器,自然不能错过。今天就介绍一下pandas的一些基本操作:1.首先,需要导入相应的python模块,并命名: import pandas as pd import numpy as np import matplotlib.pyplot as plt 2.其次,构建一个简单的DataFr...原创 2015-10-10 20:44:13 · 855 阅读 · 0 评论 -
机器学习实战学习笔记1——KNN算法
一、KNN算法概述:1.KNN算法的工作原理是:(1)存在一个训练样本集,并且知道样本集中每一数据与所属分类的对应关系,即每个数据都存在分类标签。 (2)若此时输入不带标签的新数据之后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后用算法提取出样本集中特征最相似数据的分类标签。 (3)最后,选择K个(可根据实际情况自由选择不大于20的整数)最相似数据中出现次数最多的分类,作为...原创 2016-07-18 18:47:34 · 1215 阅读 · 0 评论 -
机器学习实战学习笔记2——决策树算法
一、决策树算法概述原创 2016-07-23 11:32:44 · 842 阅读 · 0 评论 -
Python数据采集1-BeautifulSoup
1**.网络数据采集:**是一种通过多种手段收集网络数据的方式。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后是对数据进行解析,提取所需要的信息。 2.网络爬虫工作流程: (1)通过网站域名获取HTML数据; (2)根据目标信息解析数据; (3)存储目标信息; (4)如有必要,转到另一个页面重复上述过程。 3.正则表达式: (1)正则字符原创 2016-09-30 20:13:41 · 496 阅读 · 0 评论 -
Python数据采集2--链接去重
常用的网站采集方法大多是从顶级页面(如主页)开始,然后搜索页面上的所有链接,形成列表。再去采集这些链接上的所有页面,然后把每个页面找到的链接形成新的列表。如此循环采集下去,直到采集完最底层页面。很明显,每轮采集所需要采集的页面数将会以指数形式递增,就算对象只是一个中小型的企业网站,爬虫所需要采集的总页面数也将会非常庞大。但事实上,网站内部大部分的内链都是重复,所以为了避免同一个页面被多次采集,影响到原创 2016-10-06 20:11:44 · 2252 阅读 · 0 评论 -
Python环境配置之Scrapy安装
Python Scrapy 安装原创 2016-10-08 19:35:04 · 1009 阅读 · 0 评论 -
机器学习实战学习笔记5——主成分分析(PCA)
1.PCA算法概述1.1 PCA算法介绍主成分分析(Principal Component Analysis)是一种用正交变换的方法将一个可能相关变量的观察值集合转换成一个线性无关变量值集合的统计过程,被称为主成分。主成分的数目小于或等于原始变量的数目。1.2 PCA算法原理PCA的实质是在能尽可能好地代表原特征的情况下,将原特征进行线性变换,映射到低维空间。1.3 PCA 算法优缺点(1)优点:原创 2016-12-01 12:25:04 · 989 阅读 · 0 评论 -
机器学习实战学习笔记4——奇异值分解(SVD)
1.SVD算法概述1.1 SVD算法介绍 奇异值分解(Singular Value Decomposition)算法,可以将数据映射到低维空间,常用于从有噪声数据中抽取相关特征。1.2 SVD算法原理(1)先利用SVD从数据中构建一个主题空间; (2)然后在该空间下计算相似度;1.3 SVD算法优缺点(1)优点:简化数据,去除噪声,提高算法的结果 (2)缺点:数据的转换可能难以理解 (3原创 2016-11-30 21:25:34 · 1453 阅读 · 0 评论 -
机器学习实战学习笔记6——AdaBoost
1.AdaBoost概述1.1 AdaBoost介绍AdaBoost是一种迭代算法,其核心思想是针对同一训练集训练不同的分类器(弱分类器),然后把这些分类器集合起来,构成一个最终的强分类器。1.2 AdaBoost优缺点(1)优点:泛化错误率低,易编码,可以应用在大部分分类器上,无需参数调整。 (2)缺点:对离群点敏感。原创 2016-12-21 19:49:55 · 473 阅读 · 0 评论 -
机器学习实战学习笔记7——Kmeans
1.Kmeans算法概述1.1 Kmeans算法介绍Kmeans是发现给定数据集的K个簇的算法。簇个数K是用户给定的,每一个簇通过其质心,即簇中所有点的中心来描述。1.2 Kmeans算法工作流程(1)创建K个质点作为起始质心; (2)当任意一个点的簇分配结果发生改变时: 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离原创 2016-12-26 20:55:26 · 433 阅读 · 0 评论 -
机器学习实战学习笔记8——朴素贝叶斯
1.朴素贝叶斯概述1.1朴素贝叶斯介绍朴素贝叶斯(Naïve Bayesian)是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假设:给定目标值之间属性相互独立。1.2 朴素贝叶斯工作原理假设有一个数据集,由两类组成,对于每个样本的分类,都是已知的。现在有一个新的点new_point(x,y) ,其分类未知。我们可以用p1(x,y)来表示数据点(x,y)属于类别1的概率;原创 2016-12-28 20:41:06 · 540 阅读 · 0 评论 -
Python基础知识(3)——中英文文档词频统计
1.英文文档词频统计英文文档词频以英文原著爱丽丝梦游仙境为例,统计每个词在整部小说中出现的频率,并按词频从大到小进行排序。由于整本书所包含单词较多,为了便于展示,只输出词频大于10的单词。 代码如下所示:# -*- coding: utf-8 -*-"""Created on Thu Jun 15 21:13:17 2017@author: zch"""import string#读取英文原创 2017-06-15 22:30:22 · 3688 阅读 · 3 评论