![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
商业分析
qiuqiu1027
这个作者很懒,什么都没留下…
展开
-
Origin作图问题
目录1.图像边缘数据显示不全2.图例添加或更新3.隐藏的坐标轴显示4.设置颜色5.直方图柱子变细6.图层叠加7.多图层叠加调整位置(共用1个坐标轴)Origin作图,经常会遇到问题1.图像边缘数据显示不全这个现象的原因是Origin将坐标轴外的部分截掉了。双击曲线,选中Layer-display,"裁去图层框架外的数据"勾选去掉即可。2.图例添加或更新在origin中制图时,会自动添加图例,但如果在添加其它图形时,图例不好自动更新(如果在Plot Details对话框的Legends选项卡中选中原创 2020-09-29 21:31:37 · 22364 阅读 · 0 评论 -
python jieba分词,图片打印清晰,设停用词,去英文
import numpy as npfrom PIL import Imageimport reimport jiebafrom wordcloud import WordCloud,ImageColorGenerator,STOPWORDSimport matplotlib.pyplot as plt# 打开存放项目名称的txt文件with open(r"D:\python\pra\股票预测中.txt",'r',encoding='gb18030') as f: word= (f原创 2020-08-30 10:41:11 · 975 阅读 · 0 评论 -
python贝叶斯算法识别垃圾短信
概率及初始模型#!/usr/bin/env python# coding: utf-8import pandas as pdimport codecsimport numpy as npimport mathimport jieba#计算对数先验概率def getLogPrior(train): ''' totals:{'y':单词总数,'no':'单词总数'} samples:{'y':样本数,'n':样本数} logPrior原创 2020-07-11 11:34:50 · 1512 阅读 · 1 评论 -
python实现岗位薪资分析
分析方法和思路参考秦璐《七周成为数据分析师》import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir('D:\sun\作业')#设置最大显示列数pd.set_option('display.max_columns', 20)#设置最大显示行数pd.set_option('display.max_rows', 100)# 读取数据df = pd.read_csv('dataAnalyst_sql.csv', encodi原创 2020-07-11 11:33:53 · 3884 阅读 · 2 评论 -
python绘制三维动态柱状图-使用pyecharts模块
目录1. 原始数据2. 代码3. 结果当有数据想要进行横向纵向同步比较时,三维柱状图是最好的选择,目前基础的word和excel还不具备此功能,可以使用专业画图软件origin pro来做,python也是很多人首先想到的。网上搜了一下关于python绘制三维柱状图,没有找到可用的,偶然间发现一个第三方库pyecharts,不仅可以绘制三维图,还能动态展示,生成的是html文件。中文文档地址:http://pyecharts.herokuapp.com/;github项目源码仅以下方数据示例,更复杂的原创 2020-06-25 21:19:43 · 7928 阅读 · 0 评论 -
kaggle竞赛房价预测--排名前4%
目录1. 数据读取2. 数据处理3. 建模基本模型1)LASSO回归:2)Elastic Net Regression(弹性网回归):3)Kernel Ridge Regression(核岭回归) :4)Gradient Boosting Regression (梯度增强回归):5)XGBoost :6)LightGBM :基本模型得分叠加模型最简单的叠加方法:平均基本模型不那么简单的叠加:添加元模型最后训练和预测Stacked Regressions : Top 4% on LeaderBoardP原创 2020-05-30 17:13:44 · 5926 阅读 · 2 评论 -
kaggle房地产价格预测
Kaggle官方房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA。原创 2020-05-30 14:11:27 · 911 阅读 · 1 评论 -
python sklearn实现中文短信垃圾分类
数据读取import pandas as pdimport jieba data = pd.read_csv(r"E:\数据\实验data\messages.csv",encoding='gbk', header=0, ,names=[“ID”,'label','text'])#print(data.head())短信分词data['cut_message'] = data["text"].apply(lambda x:' '.join(jieba.cut(x)))#使用空格连接分词.原创 2020-05-28 15:41:02 · 1597 阅读 · 0 评论 -
Apriori关联算法的python3实现(使用早餐数据)
定义函数def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) #store all the item unrepeatly C1.sort() #return map(frozenset, C1)#frozen原创 2020-05-18 22:06:12 · 771 阅读 · 0 评论 -
Python3 ID3决策树判断申请贷款是否成功
目录1. 定义生成树2. 递归产生决策树3. 调用生成树4. 绘制决策树5. 调用函数1. 定义生成树# -*- coding: utf-8 -*-#生成树的函数from numpy import * import numpy as npimport pandas as pdfrom math import log import operator # 计算数据集的信息熵(Information Gain)增益函数(机器学习实战中信息熵叫香农熵)def calcInfoEnt(d原创 2020-05-19 23:05:27 · 1240 阅读 · 1 评论 -
python计算灰色关联度
1. 初值法import pandas as pdimport osos.chdir(r"E:\BaiduNetdiskDownload\数据") #指定路径x=pd.read_excel("灰色关联度1.xlsx", encoding='utf8')x=x.T# 1、数据初值化处理x_mean=x.mean(axis=1)for i in range(x.index.s...原创 2020-04-12 17:04:06 · 6546 阅读 · 1 评论 -
七周成为数据分析师--5 SQL
1. SQL最小化的查询结构select column from tabletable是表名,column是想要查询的字段/列,column可以用 * 代替,指代全部字段,意为从table表查询所有数据。2. where 是基础查询语法,用于条件判断。select * from DataAnalystwhere city = ‘上海’是最简化的查询语句,将所有城市为上海的职位数据...原创 2020-04-09 22:43:58 · 312 阅读 · 0 评论 -
python数据清洗--数据转换
1. 日期格式数据处理• Pandas中使用to_datetime()方法将文本格式转换为日期格式• dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等• 对于时间差数据,可以使用timedelta函数将其转换为指定时间单位的数值• 时间差数据,可以使用dt方法访问其常用属性import numpy as npimport pandas as pdim...原创 2020-03-20 22:06:15 · 835 阅读 · 1 评论 -
python数据清洗--数据统计
1. 数据分组运算分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定的函数,得到结果• 使用groupby方法进行分组计算,得到分组对象GroupBy• 语法为df.groupby(by=)• 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、median、 max和min等Group = loan_info.groupby(by = 'product...原创 2020-03-20 21:50:46 · 269 阅读 · 0 评论 -
python数据清洗--数据预处理
1. 重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除,例如订单明细数据或交易明细数据等df.head(5)#对价格和里程数数据进行处理# 自定义一个函数def f(x): if '$' in str(x): x = str(x).strip('$') x = str(x).replac...原创 2020-03-20 21:36:15 · 1922 阅读 · 0 评论 -
python数据清洗--数据表操作
代码示例参照此文章https://blog.csdn.net/qiuqiu1027/article/details/1049289801. 数据常用筛选方法• 在数据中,选择需要的行或者列• 基础索引方式,就是直接引用• ioc[行索引名称或者条件,列索引名称或者标签]• iloc[行索引位置,列索引位置]• 注意, 区分loc和ilocbasic[['户主姓名','农户生产经营类...原创 2020-03-20 21:05:26 · 275 阅读 · 0 评论 -
python数据清洗--文件操作
csv文件读写Excel文件读写数据库文件读写1.csv文件读写• pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL• 使用read_csv方法读取,结果为dataframe格式• 在读取csv文件时,文件名称尽量是英文• 参数较多,可以自行控制,但很多时候用默认参数• 读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030...原创 2020-03-20 20:44:47 · 481 阅读 · 0 评论 -
python数据清洗--常用工具
目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率NumpyNumpy中常用的数据结构是ndarray格式使用array函数创建,语法格式为array(列表或元组)可以使用其他函数例如arange、li...原创 2020-03-20 20:29:54 · 1294 阅读 · 0 评论 -
python数据清洗数据表处理
这里写自定义目录标题1.常用库2.数据读取3. 数据保存成文件4.数据筛选4.1数据查看4.2简单索引4.3loc和iloc 的使用5.数据增加和删除5.1增加一列5.2删除5.3数据修改和查找5.4 数据整理4.5 层次化索引1.常用库import pandas as pdimport numpy as npimport xlrd #Excel数据处理import os#更改文件路...原创 2020-03-17 20:32:42 · 2697 阅读 · 0 评论 -
python熵权法求权重
1.库的引用import warningswarnings.filterwarnings("ignore")import pandas as pdimport numpy as npimport osos.chdir(r"E:\BaiduNetdiskDownload\数据") #指定工作路径2.定义计算权重函数#计算权重,并将标准化后数据保存下来def get_entro...原创 2020-03-17 22:48:04 · 3866 阅读 · 0 评论 -
python熵权法,输出为标准化数据+各指标权重+各行得分+总得分
熵权法计算1.数据标准化2.计算哥指标权重3.计算各样本/行得分(此得分为用标准化数据计算而来,本人也有一篇文章是用原始数据计算分值,感兴趣可以参考)4.结果输出直接整理成一整块代码,之前代码为定义了权重函数和得分函数,因为自己用,代码量少,所以这个直接都放一起了,我觉得用标准化后的数据计算比较直观一些# -*- encoding=utf-8 -*-import warningsw...原创 2020-03-17 23:45:12 · 5004 阅读 · 7 评论 -
kaggle 欺诈信用卡预测——Smote+LR
from:https://zhuanlan.zhihu.com/p/30461746本项目需解决的问题本项目通过利用信用卡的历史交易数据,进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。建模思路项目背景数据集包含由欧洲持卡人于2013年9月使用信用卡进行交的数据。此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷。数据集非常不平...原创 2019-10-07 17:37:25 · 1155 阅读 · 1 评论