![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python数据分析
Sweeney Chen
厚积薄发!
展开
-
用户画像及项目实例:电商用户画像
用户画像所谓用户画像就是标签的汇总,从用户不同方面信息中提取有价值特征来构建标签库,并从标签库中探索信息,从而构建用户画像。用户画像建模:第一步:统一用户唯一标识用户唯一标识是整个用户画像的核心,方便跟踪和分析一个用户的特征。设计唯一标识的选择:用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID等。第二步:给用户打标签,即用户画像用户消费行为分析,可从4个维...原创 2019-05-12 20:41:29 · 4676 阅读 · 2 评论 -
Python数据分析:时间数据重采样
Python数据分析:时间数据重采样重采样:将时间序列从一个频率转换到另一个频率得的过程,需要聚合高频率转换为低频率,downsampling,相反的过程为upsamplingpandas中的resample方法实现重采样产生resample对象import pandas as pdimport numpy as npdate_rng = pd.date_rang...原创 2019-04-30 20:32:57 · 7335 阅读 · 1 评论 -
Python数据分析:数据库多表连接(SQLite)
Python数据分析:数据库多表连接(SQLite)多表连接:将多个表中的记录连接并返回结果join方式交叉连接(cross join)内连接(inner join)外连接(outer join)cross join:生成两张表的笛卡尔积返回的记录数为两张表记录数的乘积inner join生成两张表的交集返回的记录数为两张表交集的记录数ou...原创 2019-04-26 09:06:01 · 4024 阅读 · 0 评论 -
Python数据分析:时间序列数据统计--滑动窗口
Python数据分析:时间序列数据统计–滑动窗口滑动窗口函数:在时间窗口上计算各种统计函数窗口函数:滚动统计 obj.rolling().funcwindow 窗口大小center 窗口是否居中统计import pandas as pdimport numpy as npser_obj = pd.Series(np.random.randn(1000), ...原创 2019-05-01 09:20:57 · 8291 阅读 · 1 评论 -
Python数据分析:ipython使用技巧
Python数据分析:ipython使用技巧1. ?和??的使用(python对象为变量、函数等)python对象 + ? 可显示对象基本信息python对象 + ?? 可显示对象基本信息,对象为函数是会显示源码x = 6x?运行结果:def print_info(): print('Hello World')print_info?运行结果:print_inf...原创 2019-04-24 21:59:43 · 865 阅读 · 0 评论 -
Python数据分析:时序模型-ARIMA
Python数据分析:时序模型-ARIMAAR(Autoregressive)模型自回归模型描述的是当前值与历史值之间的关系滞后p阶的AR模型AR(p):yt=μ+∑i=1pγiyt−i+ϵt\mathrm{AR}(\mathrm{p}) : y_{t}=\mu+\sum_{i=1}^{p} \gamma_{i} y_{t-i}+\epsilon_{t}AR(p):yt=μ+...原创 2019-05-01 14:01:16 · 2026 阅读 · 0 评论 -
Python数据分析:股票数据分析案例
Python数据分析:股票数据分析案例步骤:准备数据可视化数据、审查数据处理数据根据ACF、PACF定阶拟合ARIMA模型预测import pandas as pdimport pandas_datareaderimport datetimeimport matplotlib.pylab as pltfrom matplotlib.pylab import style...原创 2019-05-01 15:54:26 · 14511 阅读 · 6 评论 -
Python数据分析:NLTK
Python数据分析:NLTKNatural Language Toolkitnlp领域中最常用的一个Python库开源项目自带分类、分词等功能强大的社区支持语料库,语言的实际使用中真实出现过的语言材料语料库安装import nltknltk.download()语料库nltk.corpus分词(tokenize)将句子拆分成具有语言语...原创 2019-05-01 18:35:31 · 2219 阅读 · 0 评论 -
Python数据分析:情感分析
Python数据分析:情感分析自然语言处理(NLP)将自然语言(文本)转化为计算机程序更容易理解的形式预处理得到的字符串进行向量化经典应用:情感分析文本相似度文本分类简单情感分析:情感字典(sentiment dictionary)人工构造一个字典根据关键词匹配优点:简单实用缺点:遇到新词,特殊词等,扩展性较差实用机器学习模型,nltk.c...原创 2019-05-02 09:02:41 · 3292 阅读 · 0 评论 -
Python数据分析:文本相似度
Python数据分析:文本相似度文本相似度:度量文本间的相似性使用词频表示文本特征文本中单词出现的频率或次数将文本表示成向量向量间相似度余弦相似度sim(A,B)=cos(θ)=A⋅B∥A∥B∥\operatorname{sim}(A, B)=\cos (\theta)=\frac{A \cdot B}{\|A\| B \|}sim(A,B)=cos(θ)...原创 2019-05-03 14:30:38 · 2731 阅读 · 0 评论 -
Python数据分析:文本分类
Python数据分析:文本分类TF-IDF(词频-逆文档频率):TF,Term Frequency(词频),表示某个词在该文件中出现的次数IDF,Inverse Document Frequency(逆文档频率),用于衡量某个词普遍的重要性TF-IDF = TF * IDFTF = 当前词在该文档中出现的次数/文档中词的总数IDF = log(总文档个数/当前词出现的文档个...原创 2019-05-03 16:44:37 · 875 阅读 · 0 评论 -
Python数据分析:朴素贝叶斯
Python数据分析:朴素贝叶斯假定样本每个特征与其他特征都不相关,即样本所包含的属性在判定其是否为某一类时的概率分布上是独立的尽管有着朴素思想和过于简单的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能取得相当好的效果优点:学习和预测的效率高,易于实现;在数据较少时仍然有效,可以处理多分类问题缺点:分类效果不一定高,特征独立性假设使该模型变得简单,但会牺牲一定的分类准确率朴素贝叶...原创 2019-05-04 09:10:06 · 651 阅读 · 0 评论 -
Python数据分析:scikit-image
Python数据分析:scikit-imagescikit-imagePython中用来进行图像处理的常用包之一图像数据通过numpy中的ndarray表示通常和numpy、SciPy共同使用进行图像数据的处理skimage的图像数据skimage中的图像数据是由numpy的多维数组表示由skimage加载的图像数据可以调用其他常用的包进行处理和计算,如matplotlib、S...原创 2019-05-04 14:30:10 · 1350 阅读 · 0 评论 -
Python数据分析:常用图像特征
Python数据分析:常用图像特征常用图像特征颜色特征纹理特征形状特征skimage中的特征方法 skimage.feature颜色特征图像检索中应用最为广泛的视觉特征颜色直方图:从256种灰度颜色分为k个区间,然后计算每个区间中像素点总数。图像形状特征形状特征值的表达必须对图像中物体或区域的分割为基础SIFT(Scale-invariant feat...原创 2019-05-04 21:37:44 · 2190 阅读 · 0 评论 -
Python数据分析:人工神经网络(ANN)
Python数据分析:人工神经网络(ANN)神经网络基本组成:输入层(input layer),隐藏层(hidden layer),输出层(output layer)每层由神经元或单元组成输入层由训练集的样本特征向量传入经过连接节点的权重(weight)传入下一层,上一层的输出是下一层的输入上一层中的加权求和,然后根据非线性方程转化为下一层的输入对于多层神经...原创 2019-05-05 10:18:30 · 5674 阅读 · 1 评论 -
python数据分析:数据库基本操作(SQLite)
python数据分析:数据库基本操作(SQLite)SQLite:关系型数据库管理系统嵌入式数据库,适用于嵌入式设备SQLite不是C/S的数据库引擎集成在用户程序中实现了大多数SQL标准连接数据库:conn = sqlite3.connect(db_name)如果db_name存在,则读取数据库若不存在,则新建数据库获取游标:conn.cursor()一...原创 2019-04-25 20:33:44 · 1360 阅读 · 0 评论 -
Python数据分析:pandas时间序列处理及操作
Python数据分析:pandas时间序列处理及操作基本类型,以时间戳为索引的series–>datatimeindex创建方法:指定index为datatime的listfrom datetime import datetimeimport pandas as pdimport numpy as np# 指定index为datetime的listdate_li...原创 2019-04-30 18:59:35 · 4035 阅读 · 0 评论 -
Python数据分析:beautifulsoup解析网页
Python数据分析:beautifulsoup解析网页BeautifulSoup用于解析HTML或XML步骤创建BeautifulSoup对象查询节点find 找到第一个满足条件的节点find_all 找到所有满足条件的节点创建对象创建BeautifulSoup对象bs = BeautifulSoup( url, ...原创 2019-04-26 15:01:08 · 4117 阅读 · 1 评论 -
Python数据分析:爬虫框架scrapy基础知识点
Python数据分析:爬虫框架scrapy基础知识点scrapy简介:开源的爬虫框架快速强大,只需编写少量代码即可完成爬取任务易扩展,添加新的功能模块scrapy抓取过程:使用start_urls作为初始url生成Request,默认将parse作为其回调函数在parse函数中解析目标urlscrapy高级特性:内置数据抽取器css/xpath/re交互式控制台用于调...原创 2019-04-26 19:10:08 · 544 阅读 · 0 评论 -
Python数据分析:K-Means算法
Python数据分析:K-Means算法k-means属于无监督学习算法数据挖掘十大经典算法之一算法接收参数k,然后将样本点划分为k个类别,同一类别的样本相似度较高,不同类别的样本相似度较小算法思想:随机选取空间中k个样本点为中心进行聚类,对最靠近他们的样本点归类,通过迭代的方法逐步更新给聚类中心,知道聚类中心不再改变算法描述:随机选取K个聚类初始中心在第n次...原创 2019-04-29 10:22:43 · 614 阅读 · 0 评论 -
Python数据分析:pandas数据操作和分析案例
Python数据分析:pandas数据操作和分析案例项目介绍:https://www.kaggle.com/openfoodfacts/world-food-facts项目任务:统计各个国家食物中的食品添加剂种类个数import zipfileimport osimport pandas as pdimport matplotlib.pyplot as pltdef ...原创 2019-04-29 17:27:02 · 5265 阅读 · 2 评论 -
Python数据分析:数据可视化matplotlib
Python数据分析:数据可视化matplotlibmatplotlib用于创建出版质量图表的绘图工具库,目的是为Python构建一个matlab式的绘图接口import matplotlib.pyplot as pltpyplot 模块中包含了常用的matplotlib API函数figurematplotlib的图像均位于figure对象中创建figure pl...原创 2019-04-29 20:09:34 · 896 阅读 · 0 评论 -
Python数据分析:数据可视化Seaborn
Python数据分析:数据可视化SeabornseabornPython中的一个制图工具库,可以制作出吸引人的、信息量大的统计图在matplotlib上构建,支持numpy和pandas的数据结构可视化,甚至是SciPy和statsmodels的统计模型可视化特点多个内置主题及颜色主题可视化单一变量、二维变量用于比较数据集中各变量的分布情况可视化线性回归模型中的独立变量及不独立...原创 2019-04-29 20:55:53 · 746 阅读 · 0 评论 -
Python数据分析:数据可视化案例
Python数据分析:数据可视化案例import pandas as pdimport matplotlib.pyplot as pltfrom matplotlib import stylestyle.use('ggplot') # 设置图片显示的主题样式# 解决matplotlib显示中文问题plt.rcParams['font.sans-serif'] = ['Sim...原创 2019-04-29 21:35:42 · 32813 阅读 · 19 评论 -
Python数据分析:scikit-learn基础(一)
Python数据分析:scikit-learn入门(一)基本步骤:加载示例数据集digits在训练集上训练模型SVM模型LR模型.fit() 训练模型在测试集上测试模型.predict() 进行预测保存模型pickle.dumps()加载模型预测加载示例数据集from sklearn import datasetsdigits ...原创 2019-05-05 16:02:25 · 562 阅读 · 0 评论 -
Python数据分析:逻辑回归(logistic regression)
Python数据分析:逻辑回归(logistic regression)逻辑回归(Logistic Regression),简称LR,能够将特征输入集合转化为0和1这两类的概率。优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度不高使用数据:数值型和标称型基本模型:训练样本:X(xθ,x1,x2,…,xn)X \left(x_{\theta}, x_{1}, x_...原创 2019-04-30 11:00:47 · 6527 阅读 · 1 评论 -
Python数据分析:scikit-learn基础(二)
Python数据分析:scikit-learn基础(二)使用scikit-learn流程准备数据集数据处理数据集格式二维数组,形状(n_samples,n_features)使用np.reshape()转换数据集形状特征工程特征提取特征归一化(normalization)……分割训练集、测试集train_test_split()特征归一化(normaliza...原创 2019-05-06 14:55:01 · 480 阅读 · 0 评论 -
Python数据分析:特征降维-主成分分析(PCA)
Python数据分析:特征降维-主成分分析(PCA)principal components analysis(PCA)用于减少数据集的维度,同时保持数据集中对方差贡献最大的特征保留低阶主成分,忽略高阶成分,低阶成分往往能够保留数据最重要方面方差与协方差:用于衡量一系列点在它们的重心或均值附近的分散程度方差:衡量数据点在一个维度的偏差协方差:衡量一个维度是否会对另一个...原创 2019-05-08 14:36:31 · 11628 阅读 · 0 评论 -
Python数据分析:csv文件数据的提取案例
Python数据分析:csv文件数据的提取案例文件网址:https://www.kaggle.com/osmi/mental-health-in-tech-survey目标:提取csv文件中的国家和所对应的性别统计数据import csv# 数据集路径path = 'survey.csv'def run_main(): # 男性取值列表 male_set = {'m...原创 2019-04-24 10:36:36 · 12772 阅读 · 1 评论 -
Python数据分析:Python日期和时间处理及操作
Python数据分析:Python日期和时间处理及操作时间序列分类:时间戳(timestamp) 特定的时刻固定周期(period) 某月或某年时间间隔(interval) 由起始时间戳和结束时间戳表示datetime, time及calendar模块:datatime 以毫秒形式存储时间和日期from datetime import datetimenow = da...原创 2019-04-30 15:05:36 · 4427 阅读 · 0 评论 -
Python数据分析:常用的数据分析格式文件的读写
Python数据分析:常用的数据分析格式文件的读写常用数据分析文件格式:txtcsvjsonxmlxls,xlsxHDFtxt文件的读写文件的打开:f = open(file_name, mode)mode:‘r’ , ‘w’读:f.read() 读取整个文件内容f.readline() 逐行读取f.readlines()...原创 2019-04-25 18:41:06 · 648 阅读 · 0 评论 -
Python数据分析:爬虫基本知识
Python数据分析:爬虫基本知识爬虫:自动抓取互联网信息的程序利用互联网数据进行分析、开发产品爬虫基本架构:URL管理模块对计划爬取的或已经爬取的URL进行管理网页下载模块将URL管理模块中指定的URL进行访问下载网页解析模块解析网页下载模块中的URL,处理或保存数据如果解析到要继续爬取的URL,返回URL管理模块继续循环URL管理模块:...原创 2019-04-26 11:41:45 · 417 阅读 · 0 评论