python代码
qiuqiu1027
这个作者很懒,什么都没留下…
展开
-
AttributeError: ‘SVR‘ object has no attribute ‘SVR‘
AttributeError: ‘SVR’ object has no attribute ‘SVR’重新运行一下库的导入原创 2021-01-27 21:10:56 · 1446 阅读 · 1 评论 -
python绘图显示中文标题
python默认是英文输出,如果自己的数据中是中文标题,则图片显示时会出现小方框,加上下面这段代码再运行画图命令,即可显示中文标题#解决中文显示问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsefrom pylab import *mpl.rcParams['font.sans-serif']=['SimHei']...原创 2021-01-14 17:37:08 · 2039 阅读 · 0 评论 -
python jieba分词,图片打印清晰,设停用词,去英文
import numpy as npfrom PIL import Imageimport reimport jiebafrom wordcloud import WordCloud,ImageColorGenerator,STOPWORDSimport matplotlib.pyplot as plt# 打开存放项目名称的txt文件with open(r"D:\python\pra\股票预测中.txt",'r',encoding='gb18030') as f: word= (f原创 2020-08-30 10:41:11 · 994 阅读 · 0 评论 -
python字频、词频统计
#字频统计# -*- coding: utf-8 -*-# coding=utf-8import collections# 读取文本文件,把所有的汉字拆成一个listf = open("D:\python\pra\推荐系统1-500.txt", 'r', encoding='utf-8') # 打开文件,并读取要处理的大段文字txt1 = f.read()txt1 = txt1.replace('\n', '') # 删掉换行符txt1 = txt1.replace(',', '')原创 2020-08-30 10:28:44 · 2499 阅读 · 1 评论 -
python贝叶斯算法识别垃圾短信
概率及初始模型#!/usr/bin/env python# coding: utf-8import pandas as pdimport codecsimport numpy as npimport mathimport jieba#计算对数先验概率def getLogPrior(train): ''' totals:{'y':单词总数,'no':'单词总数'} samples:{'y':样本数,'n':样本数} logPrior原创 2020-07-11 11:34:50 · 1529 阅读 · 1 评论 -
python实现岗位薪资分析
分析方法和思路参考秦璐《七周成为数据分析师》import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir('D:\sun\作业')#设置最大显示列数pd.set_option('display.max_columns', 20)#设置最大显示行数pd.set_option('display.max_rows', 100)# 读取数据df = pd.read_csv('dataAnalyst_sql.csv', encodi原创 2020-07-11 11:33:53 · 3965 阅读 · 2 评论 -
python绘制三维动态柱状图-使用pyecharts模块
目录1. 原始数据2. 代码3. 结果当有数据想要进行横向纵向同步比较时,三维柱状图是最好的选择,目前基础的word和excel还不具备此功能,可以使用专业画图软件origin pro来做,python也是很多人首先想到的。网上搜了一下关于python绘制三维柱状图,没有找到可用的,偶然间发现一个第三方库pyecharts,不仅可以绘制三维图,还能动态展示,生成的是html文件。中文文档地址:http://pyecharts.herokuapp.com/;github项目源码仅以下方数据示例,更复杂的原创 2020-06-25 21:19:43 · 8000 阅读 · 0 评论 -
python常用数据作图--matplotlib用法(相关设置及常用图)
matplotlib.pyplot是一个有命令风格的函数集合,看起来和MATLAB相似。每一个pyplot函数都使一副图像做出些许改变,例如创建一幅图,在图中创建一个绘图区域,在绘图区域中添加一条线等等。在matplotlib.pyplot中,各种状态通过函数调用保存起来,以便于可以随时跟踪像当前图像和绘图区域这样的东西。== 绘图函数是直接作用于当前axes(matplotlib中的专有名词,图形中组成部分,不是数学中的坐标系)。 ==1.pyplot的plot( )函数1.1 函数参数==plt.原创 2020-06-04 18:29:32 · 3469 阅读 · 0 评论 -
kaggle竞赛房价预测--排名前4%
目录1. 数据读取2. 数据处理3. 建模基本模型1)LASSO回归:2)Elastic Net Regression(弹性网回归):3)Kernel Ridge Regression(核岭回归) :4)Gradient Boosting Regression (梯度增强回归):5)XGBoost :6)LightGBM :基本模型得分叠加模型最简单的叠加方法:平均基本模型不那么简单的叠加:添加元模型最后训练和预测Stacked Regressions : Top 4% on LeaderBoardP原创 2020-05-30 17:13:44 · 6003 阅读 · 2 评论 -
kaggle房地产价格预测
Kaggle官方房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA。原创 2020-05-30 14:11:27 · 999 阅读 · 1 评论 -
python sklearn实现中文短信垃圾分类
数据读取import pandas as pdimport jieba data = pd.read_csv(r"E:\数据\实验data\messages.csv",encoding='gbk', header=0, ,names=[“ID”,'label','text'])#print(data.head())短信分词data['cut_message'] = data["text"].apply(lambda x:' '.join(jieba.cut(x)))#使用空格连接分词.原创 2020-05-28 15:41:02 · 1625 阅读 · 0 评论 -
python pandas 解析(读取、写入) CSV 文件
1. 使用 pandas 读取 CSV 文件原始数据包含了公司员工的数据:NameHire DateSalarySick Days remainingGraham Chapman03/15/1450000.0010John Cleese06/01/1565000.008Eric Idle05/12/1445000.0010Terry Jones11/01/1370000.003Terry Gilliam08/12/1448000原创 2020-05-28 15:40:03 · 79083 阅读 · 8 评论 -
Python3 ID3决策树判断申请贷款是否成功
目录1. 定义生成树2. 递归产生决策树3. 调用生成树4. 绘制决策树5. 调用函数1. 定义生成树# -*- coding: utf-8 -*-#生成树的函数from numpy import * import numpy as npimport pandas as pdfrom math import log import operator # 计算数据集的信息熵(Information Gain)增益函数(机器学习实战中信息熵叫香农熵)def calcInfoEnt(d原创 2020-05-19 23:05:27 · 1252 阅读 · 1 评论 -
Apriori关联算法的python3实现(使用早餐数据)
定义函数def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) #store all the item unrepeatly C1.sort() #return map(frozenset, C1)#frozen原创 2020-05-18 22:06:12 · 780 阅读 · 0 评论 -
python pandas数据格式转换、排序、统计、数据透视表
目录1 数据格式转换2 数据的排序2.1 单个表格列数据的排序需要用到函数:2.2 多排序问题:3 基本统计数据分析3.1 描述性统计3.2 列数据统计(最值/方差等)4数据透视操作和函数1 数据格式转换查看与转换表格某一列的数据格式:(1)查看数据类型:某一列的数据格式:df[“列属性名称”].dtype(2)数据类型转换:某一列的数据类型转换需要用到数据转换函数:df[列属性名称]=df[列属性名称].astype(“新的数据类型”)代码举例如下:import numpy as npim原创 2020-05-12 22:51:33 · 2199 阅读 · 0 评论 -
pandas 报错'DataFrame' object has no attribute 'as_matrix'解决办法
data = data.as_matrix(columns = None) 运行时报错==‘DataFrame’ object has no attribute ‘as_matrix’==先看pandas版本pd.__version__‘1.0.3’去pandas官网看该版本的方法说明https://pandas.pydata.org/pandas-docs/stable/refer...原创 2020-05-02 21:35:15 · 15624 阅读 · 0 评论 -
python语法 format字符串格式化函数
目录1. format函数可以接受不限个数参数,位置可以不按顺序。2. 设置参数:3. 传入对象:4. 数字格式化5. 填充与对齐6. 进制表示7. 大括号 {} 转义大括号printf-style formatting占位符使用%和格式字符组成,如%d、%sformat % values,格式字符串与被格式的值之间使用%隔开values只能是一个对象,或是一个和格式字符串占位符数目相等...原创 2020-04-30 23:33:26 · 526 阅读 · 0 评论 -
python字符串基础语法与用法
字符串string,一个个字符组成的有序序列,是字符的集合,使用单引号、双引号或三引号,字符串是不可变对象(不能在元字符串基础上修改,可以再加变量赋值计算),python3起,字符串就是Unicode类型,默认utf-81. 创建可以使用单引号或双引号来创建字符串。var1 = 'Hello World!'var2 = "Python Runoob"Python访问字符串中的值Pyt...原创 2020-04-30 23:17:59 · 500 阅读 · 0 评论 -
python计算灰色关联度
1. 初值法import pandas as pdimport osos.chdir(r"E:\BaiduNetdiskDownload\数据") #指定路径x=pd.read_excel("灰色关联度1.xlsx", encoding='utf8')x=x.T# 1、数据初值化处理x_mean=x.mean(axis=1)for i in range(x.index.s...原创 2020-04-12 17:04:06 · 6569 阅读 · 1 评论 -
python数据清洗--数据转换
1. 日期格式数据处理• Pandas中使用to_datetime()方法将文本格式转换为日期格式• dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等• 对于时间差数据,可以使用timedelta函数将其转换为指定时间单位的数值• 时间差数据,可以使用dt方法访问其常用属性import numpy as npimport pandas as pdim...原创 2020-03-20 22:06:15 · 842 阅读 · 1 评论 -
python数据清洗--数据统计
1. 数据分组运算分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定的函数,得到结果• 使用groupby方法进行分组计算,得到分组对象GroupBy• 语法为df.groupby(by=)• 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、median、 max和min等Group = loan_info.groupby(by = 'product...原创 2020-03-20 21:50:46 · 276 阅读 · 0 评论 -
python数据清洗--数据预处理
1. 重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除,例如订单明细数据或交易明细数据等df.head(5)#对价格和里程数数据进行处理# 自定义一个函数def f(x): if '$' in str(x): x = str(x).strip('$') x = str(x).replac...原创 2020-03-20 21:36:15 · 1940 阅读 · 0 评论 -
python数据清洗--数据表操作
代码示例参照此文章https://blog.csdn.net/qiuqiu1027/article/details/1049289801. 数据常用筛选方法• 在数据中,选择需要的行或者列• 基础索引方式,就是直接引用• ioc[行索引名称或者条件,列索引名称或者标签]• iloc[行索引位置,列索引位置]• 注意, 区分loc和ilocbasic[['户主姓名','农户生产经营类...原创 2020-03-20 21:05:26 · 284 阅读 · 0 评论 -
python数据清洗--文件操作
csv文件读写Excel文件读写数据库文件读写1.csv文件读写• pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL• 使用read_csv方法读取,结果为dataframe格式• 在读取csv文件时,文件名称尽量是英文• 参数较多,可以自行控制,但很多时候用默认参数• 读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030...原创 2020-03-20 20:44:47 · 496 阅读 · 0 评论 -
python数据清洗--常用工具
目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率NumpyNumpy中常用的数据结构是ndarray格式使用array函数创建,语法格式为array(列表或元组)可以使用其他函数例如arange、li...原创 2020-03-20 20:29:54 · 1309 阅读 · 0 评论 -
python字符串练习
1.用户输入1个数字,判断几位数,打印每一位数字及其重复次数,依次打印每一位数字,顺序个、十、百、千…a = input(">>>")print("%d位数" % len(a))d = {}for j in range(len(a)): if a[j] not in d: d[a[j]] = 1 else: d[a[j]] ...原创 2020-03-18 21:59:11 · 407 阅读 · 0 评论 -
python字典练习
1.用户输入一个数字,打印每一位数字及其重复的次数a = str(input('please input a number>>>')) #转化成字符串dic = {}for i in range(len(a)): print(a[i]) #打印每一位数字 if a[i] not in dic: #value在不在字典中,不在的话数字只出现1次 ...原创 2020-03-18 21:46:17 · 969 阅读 · 0 评论 -
python多种语法实现依次接收用户输入的3个数,排序后打印
1.转换int后,判断大小排序,使用分支结构a = int(input(“first number>>>”))b = int(input(“second number>>>”))c = int(input(“third number>>>”))if a > b:if b > c: print(a,b,c)...原创 2020-03-18 21:41:50 · 2196 阅读 · 0 评论 -
python实现随机产生10个数字,取值范围[1,20],统计重复的数字有几个,分别是什么?不重复的数字有几个,分别是什么?
方法1import randomlst = []rep_lst = [] #重复数字uniq_lst = [] #不重复数字for i in range(10): temp = random.randint(1,20) #产生随机数,闭区间 if temp in lst and temp not in rep_lst: #寻找重复数字 rep...原创 2020-03-18 21:38:43 · 9374 阅读 · 0 评论 -
python任意矩阵,求转置
扫描第一行,在tm的第一列从上至下附加,然后再第二列附加举例:扫描第一行1,2,3,加入到tm的第一列,然后扫描第二行4,5,6,追加到tm的第二列过程演示:#定义一个矩阵,不考虑稀疏矩阵# 1 2 3 1 4# 4 5 6 ==>> 2 5# 3 6#任意矩阵转置import datetimestart = dateti...原创 2020-03-18 21:20:37 · 1685 阅读 · 0 评论 -
python实现矩阵转置
matrix = [[1,2,3],[4,5,6],[7,8,9]]print(matrix)count=0for i,row in enumerate(matrix): for j,col in enumerate(row): if i < j : temp = matrix[i][j] matrix[i]...原创 2020-03-18 21:11:47 · 1244 阅读 · 0 评论 -
python打印杨辉三角,第m行第k个数,多种方法
1. 第m行第k个数第m行有m项,m是正整数,因此k一定不会大于m,这个需求需要保存m行的数据,那么可以使用一个嵌套结构[[],[],[]]m=int(input('行>>>'))k=int(input('第几个数>>>'))triangle=[]for i in range(m): row=[1] #所有行都以...原创 2020-03-18 21:08:02 · 902 阅读 · 0 评论 -
python几个数学入门小练习:求奇数和,判断成绩等级,阶乘和,素数
1.求100以内所有奇数的和(2500)sum = 0for i in range(1,100,2) sum += iprint(sum)-------------------------------------------sum=0for i in range(100): if i%2==1: sum+=iprint(sum)2.判断学生成绩,等...原创 2020-03-18 01:52:36 · 1357 阅读 · 0 评论 -
python数字判断位数,依次打出每位数字
1.从高位到低位打印a=float(input('>>>请输入一个正数'))a=int(a//1)b=str(a)if a<0:print('您输入的数字不符合要求')else:print('此数为%s位数'%(len(b)))for i in range(len(b),0,-1):print(a//(10**(i-1)))a%=(10**(i-1))...原创 2020-03-18 01:45:42 · 5838 阅读 · 2 评论 -
python熵权法,输出为标准化数据+各指标权重+各行得分+总得分
熵权法计算1.数据标准化2.计算哥指标权重3.计算各样本/行得分(此得分为用标准化数据计算而来,本人也有一篇文章是用原始数据计算分值,感兴趣可以参考)4.结果输出直接整理成一整块代码,之前代码为定义了权重函数和得分函数,因为自己用,代码量少,所以这个直接都放一起了,我觉得用标准化后的数据计算比较直观一些# -*- encoding=utf-8 -*-import warningsw...原创 2020-03-17 23:45:12 · 5075 阅读 · 7 评论 -
python熵权法求权重
1.库的引用import warningswarnings.filterwarnings("ignore")import pandas as pdimport numpy as npimport osos.chdir(r"E:\BaiduNetdiskDownload\数据") #指定工作路径2.定义计算权重函数#计算权重,并将标准化后数据保存下来def get_entro...原创 2020-03-17 22:48:04 · 3907 阅读 · 0 评论 -
python数据清洗数据表处理
这里写自定义目录标题1.常用库2.数据读取3. 数据保存成文件4.数据筛选4.1数据查看4.2简单索引4.3loc和iloc 的使用5.数据增加和删除5.1增加一列5.2删除5.3数据修改和查找5.4 数据整理4.5 层次化索引1.常用库import pandas as pdimport numpy as npimport xlrd #Excel数据处理import os#更改文件路...原创 2020-03-17 20:32:42 · 2713 阅读 · 0 评论 -
jieba读取txt文档并进行分词、词频统计,输出词云图
代码实现// 库的引用import jiebaimport matplotlib as mplimport matplotlib.pyplot as pltfrom wordcloud import WordCloud#定义一个空字符串final = ""#文件夹位置filename = r"D:\python\pra\推荐系统1-500.txt" #打开文件夹,读取内容,...原创 2019-11-20 19:42:53 · 4164 阅读 · 1 评论 -
python打印偶数
整除判断for i in range(10):if not i%2:print(i)如果整除继续,打印for i in range(10):if i%2:continueprint(i)range函数直接打印for m in range(0,10,2):print(m)4.位运算 for i in range(10): if ...原创 2019-01-26 23:36:58 · 5729 阅读 · 0 评论 -
python打印杨辉三角及输出第m行第k个数
1.打印杨辉三角及输出第m行第k个数1.计算到m行,打印出k项第m行有m项,m是正整数,因此k一定不会大于m,这个需求需要保存m行的数据,那么可以使用一个嵌套结构[[],[],[]]m=int(input('行>>>'))k=int(input('第几个数>>>'))triangle=[]for i in range(m): row=[1]...原创 2019-01-27 15:58:58 · 2122 阅读 · 0 评论