自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 线性回归评价几个指标(MAE,MSE,RMSE,R^2,MAPE)

Python–线性回归评价指标实现一、项目背景(可不看)最近在做非线性数据的数据预测,一头雾水,一年不学习,脑袋有问题。还记得上次做的数据是关于一个政务系统的热点问题分类模块,用了机器学习和深度学习啥的,满脸蒙,反正后面就是做完了(好多吐槽)。现在做的是关于供应链模块的需求预测,简单说目前的运作流程是:客户需求–>营业人员经验修正–>客户需求生成。面临问题:客户的需求不能保证准确性,营业人员出于保证出货而减少风险的考虑,修正的客户需求跟未来实际需求不一致,甚至多出十几倍。修正办法:

2021-09-18 17:15:45 14888 2

原创 Python文本中选取地点位置

1.固定格式求地点location_str = ['长沙开区橄榄城小区']#data_zhuti_qumin_tq[1]#投诉长沙开区橄榄城小区车位违建#["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区", "朝阳区北苑华贸城"]import addressparserdf = addressparser.transform(location_str)print(df)结果2.一段文本求地点import paddlehub as hublac = hub.Module

2020-07-20 15:51:32 1231

原创 Python比较文本相似度的7种方法(详细)

词袋模型from gensim import corporafrom gensim import modelsfrom gensim import similarities#from corpora.corpus import Corpus# 1 分词# 1.1 历史比较文档的分词all_location_list = []for doc in location_list: doc_list = [word for word in jieba.cut_for_search(doc)]

2020-07-20 15:47:16 46148 3

原创 Python批量保存文本

话不多说,直接上代码吧import pandas as pdimport osimport reimport jieba# 设置当前工作路径os.chdir(r'C:\Users\Administrator\Desktop\示例数据')# 读取数据data2 = pd.read_excel('3.xlsx')data2_message = data2['详情']def wenben(a): b = 10000 for i in range(len(a)):

2020-07-20 15:34:57 647

原创 word2vec中文语料处理及模型训练实践

1.word2vec简介(节选自百度百科)Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。2.Python实践(参考https://blog.csdn.net/shuihupo/article/details/85162237)

2020-07-20 15:31:12 1127

原创 LDA模型:建立词典+文本数量+建立文档TF-IDF+LDA模型拟合

1.LDA模型简介(节选自百度百科)LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息

2020-07-20 15:18:28 6556 3

原创 jieba分词-选择词性-词频统计

导入模块包import numpy as npimport pandas as pdimport jiebaimport jieba.analyseimport codecsimport os #更改当前路径import re设置当前工作路径os.chdir(r'文件路径1')#设置pd的显示长度pd.set_option('max_colwidth',500)载入数据...

2020-04-06 21:55:01 1187

原创 baidulac分词使用前提:安装paddle和paddlehub

1.paddle:支持Python版本和Linux版本的安装这里介绍的是Python版本:直接打开paddle官网:链接。选择对应的环境:接下来便可以查看相关命令操作就行了2.paddlehub:打开cmd界面输入pip install paddlehub以下是安装过程如果在安装过程出现了如下错误:是因为相关插件filelock无法删除,一般需要手动删除,插件位置一般在:D:\...

2020-03-10 19:08:45 1448

原创 更改路径后jupyter闪退解决办法

针对还原了起始和目标路径还是没办法解决jupyter闪退问题: 本人原先的jupyter默认的目标路径是:`D:\1SoftwaresFromInternet\jetbrains\anaconda\python.exe D:\1SoftwaresFromInternet\jetbrains\anaconda\cwp.py D:\1SoftwaresFromInternet\jetbrains\...

2020-03-10 17:11:32 1694

原创 Anaconda安装tensorflow高版本转换为低版本(实测有用)

在写这篇文章前,小编尝试了一大堆稀奇古怪的方式:*1.传统简单粗暴的在cmd进入命令行,输入:pip install tensorflow在这里会默认下载最新的版本,这就是斗争的开始,在最新版本2.*的过程中,由于插件的升级,导致在初始化变量时下面代码片失效:sess.run()上网查了一下发现在新版本中,还需要实现声明一下:tf.compat.v1.disable_eager_e...

2020-03-08 10:58:30 15023 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除