![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
leofionn
梦想还是要有的。万一呢?
展开
-
腾讯云语音识别总结:cos存储到文字获取
需求背景:对尽调录音进行录音整理。设计:先将录音存储到腾讯云cos对象存储(为啥选腾讯云,当然是腾讯的最便宜啊。。。免费的一个月10小时录音转文字,40g永久免费的存储)代码开发:(直接抄腾讯云自带api生成)# -*- coding=utf-8# appid 已在配置中移除,请在参数 Bucket 中带上 appid。Bucket 由 BucketName-APPID 组成# 1. 设置用户配置, 包括 secretId,secretKey 以及 Regionfrom qcloud_cos原创 2021-08-30 10:27:47 · 604 阅读 · 0 评论 -
笔试面试更新以及秋招总体面试总结(商业银行总行IT管培生、宁波私募、上海大数据平台、北京头部私募数据岗)
总行IT管培生白板笔试,人傻了1、python list题目贼简单,具体忘记了没印象。2、完成一副扑克牌生成、随机打乱、发放等函数import randomdef fapai(): paizu = [] for i in range(4): for j in range(14): paizu.append(str(i)+'-'+str(j)) return paizudef shuffle(x): random.shuff原创 2020-11-27 11:30:11 · 530 阅读 · 4 评论 -
yolov5-cocotxt格式转vocxml
首先:yolov5需要txt格式输入,而且yolov5输出的是txt格式。如果我们的场景是需要xml解析,就需要修改。其思路:先用你的标注工具标注一份xml文件,再根据这份,修改下列代码使yolo输出的txt转换为xml后,标注工具可以识别import cv2import osimport numpy as npxml_head = '''<?xml version="1.0"?><annotation> <folder>VOC2007</fol原创 2020-11-23 17:45:26 · 1256 阅读 · 3 评论 -
数模:个人理财规划(初篇)--复利计算思考
临近毕业,要开始思考毕业论文了。 最近因为发生了一些事情,对保险进行了一系列的研究。因为本身是金融专业,课程中也接触了保险、个人资产配置、投资收益等方面的知识。而且刚好处于实习,手上也有余钱,股市环境也不错,就想围绕这些给我自己的未来进行一个规划。 前段时间,支付宝保险中可以购买个人寿险。可惜刚出当天我可以购买300万的保险,思考后放弃了,再次想购买的时候,只能花更多的钱买150w的保险单。此处月支出:200+。考虑到未来从原创 2020-09-07 15:30:34 · 651 阅读 · 0 评论 -
数据网站汇总
人工智能,数据挖掘,数据分析,都离不开数据。对于从业者来说,数据获取自然不是问题。可是,对于初学者来说,数据的获取成了大难题。下面就总结一些有用的数据网站:一.通用数据1.data.gov( https://www.data.gov/ ) 这是美国政府公开数据的所在地,该站点包含了超过19万的数据点。这些数据集不同于气候、教育、能源、金融和更多领域的数据。2...转载 2018-10-08 13:02:46 · 995 阅读 · 0 评论 -
window7安装pytorch(无GPU,无独显)
(1) pip安装pip install http://download.pytorch.org/whl/cpu/torch-0.4.0-cp36-cp36m-win_amd64.whlpip install torchvision(2)这里还可以采用的方法是conda安装但是如果直接输入官网推荐的,我安装的时候给我的提示是找不到该包,采用的方法是conda config --add c...原创 2018-10-29 08:34:53 · 3054 阅读 · 0 评论 -
参数调优的一些学习记录
keras参数调优(如何使用scikit-learn网格搜索功能):https://blog.csdn.net/wang1127248268/article/details/77200639keras 调参, 优化, 一些设置等:https://blog.csdn.net/xiaojiajia007/article/details/72884410python调参神器hyperopt:http...原创 2018-10-29 13:19:01 · 179 阅读 · 0 评论 -
7种回归技术
https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/原创 2018-12-07 16:42:55 · 210 阅读 · 0 评论 -
centos python2.7和Anaconda python3.7共存
在~/.bashrc中添加如下内容:alias python="/usr/bin/python2.7"alias python3="/root/anaconda3/bin/python3.7" source .bashrc原创 2018-12-23 16:02:50 · 998 阅读 · 0 评论 -
python中Pandas做处理时内存节省的技巧
1.查看dataframe占用空间 例如,我们读取之前的所有行情和因子数据:data = pd.read_csv('total_data.csv', index_col=0)data.info(memory_usage='deep') 首先,我们读取total_data.csv这个数据,并制定第一列是index,然后,我们获取一下这个dataframe这个对象在内...转载 2018-12-25 08:59:38 · 1174 阅读 · 0 评论 -
所有的Python库
Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配。esmre ,正则表达式的加速器。colorama 主要用来给文本添加各种颜色,并且非常简单易用。Prettytable 主要用于在终端或浏览器端构建格式化的输出。difflib ,[Python]标准库,计算文本差异 。Levenshtein ,快速计算字符串相似度。Chardet 字符编码探测器,可以自动检测...转载 2018-10-07 21:51:28 · 401 阅读 · 0 评论 -
pyspark系列--pandas和pyspark对比
目录pandas和pyspark对比1.1. 工作方式1.2. 延迟机制1.3. 内存缓存1.4. DataFrame可变性1.5. 创建1.6. index索引1.7. 行结构1.8. 列结构1.9. 列名称1.10. 列添加1.11. 列修改1.12. 显示1.13. 排序1.14. 选择或切片1.15. 过滤1.16. 整合1.17. 统计1.18. ...转载 2018-09-22 21:41:25 · 2853 阅读 · 0 评论 -
机器学习-GridSearchCV自动调参,RF特征选择
https://blog.csdn.net/RuDing/article/details/78216086转载 2018-09-27 12:14:51 · 1045 阅读 · 0 评论 -
looter
如今,网上的爬虫教程可谓是泛滥成灾了,从urllib开始讲,最后才讲到requests和selenium这类高级库,实际上,根本就不必这么费心地去了解这么多无谓的东西的。只需记住爬虫总共就三大步骤:发起请求——解析数据——存储数据,这样就足以写出最基本的爬虫了。诸如像Scrapy这样的框架,可以说是集成了爬虫的一切,但是新人可能会用的不怎么顺手,看教程可能还会踩各种各样的坑,而且Scrapy本身体...转载 2018-08-02 09:34:29 · 926 阅读 · 0 评论 -
新闻文本分类(朴素贝叶斯)
读取20类新闻文本的数据细节# 从sklearn.datasets里导入新闻数据抓取器fetch_20newsgroupfrom sklearn.datasets import fetch_20newsgroups# 与之前预存的数据不同,fetch_20newsgroup需要即时从互联网下载数据news = fetch_20newsgroups(subset='all')# 查验数...原创 2018-07-28 13:06:18 · 2641 阅读 · 0 评论 -
基于 svm 的金融咨询情感分析
详细代码与代码说明可见我的 github:https://github.com/ouprince/svm处理流程:(1)金融咨询处理1.利用 7 万多条利好/利空语料(已经标注好的,分为 1 正性,-1 负性两类),首先采用 B-gram 卡方差提取特征词汇2.使用卡方提取的特征词为每一篇咨询建立向量表示模型3.使用向量进行 svm 分割,训练语料 80%,测试语料 20%,并...转载 2018-07-31 18:30:55 · 713 阅读 · 0 评论 -
利用500万条微博语料对微博评论进行情感分析
最近身边的人都在谈论一件事:10月8日中午的一条微博,引发了一场微博的轩然大波。导致微博瘫痪的原因是全球超人气偶像明星鹿晗发了一条“大家好,给大家介绍一下,这是我女朋友@关晓彤”。这条微博并@关晓彤。数据分析,可以在这里自取!截止目前,鹿晗的这条微博已经被转发1024887,回复2649409,点赞5173532。关晓彤的这条微博转发67652,回复873532,点赞:2260400。...转载 2018-07-31 17:57:03 · 4729 阅读 · 0 评论 -
数据竞赛系列
1.方法论1.1 EDA传统问题低维度特征可视化与强特征构造:https://www.kesci.com/apps/home/project/59f687e1c5f3f511952baca0 时间序列问题EDA的分析角度,时序必备背景知识(2.1和2.2是翻译的经典时序书籍Forecasting Principles and Practice的前两章节,很多比赛的时序特征工程以及模型的选...转载 2018-07-27 15:05:19 · 2190 阅读 · 0 评论 -
使用xgboost进行特征选择
使用基于决策树的梯度提升算法的一个好处是,可以自动地获取特征的重要性,从而有效地进行特征的筛选。本文基于xgboost进行特征选择的实践使用gradient boosting计算特征重要性通过梯度提升的方法,我们可以根据提升之后的树获取每个特征的重要性。一般来说,特征的重要性表示这个特征在构建提升树的作用。如果一个特征在所有树中作为划分属性的次数越多,那么该特征就越重要。通过每个属性分割...转载 2018-12-25 22:27:52 · 5538 阅读 · 0 评论 -
python语音识别
转载: https://cloud.tencent.com/developer/article/1176011 语音识别技术,也被称为自动语音识别,目标是以电脑自动将人类的语音内容转换为相应的文字。应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。一、功能概述实现将语音转换为文字,调取第3方接口。比如百度ai,图灵机器人,得到想要的结果。二、软件环境...转载 2019-01-08 12:59:50 · 13227 阅读 · 12 评论 -
适合于高速道路交通研究的库------Einspy
github地址:https://github.com/xiongbeer/Eins文档地址:https://veinsdocs.readthedocs.io/zh_CN/latest/index.html评价:感觉比simpy更加专业。但是没有实际测试,唯一坏处,使用python2.7...原创 2019-01-20 13:44:47 · 219 阅读 · 0 评论 -
简单构建新闻数据对股票的情绪因子(大盘因子)
简单思路描述:根据前一天的新闻数据,预测后一天大盘涨跌,涨为1,跌为0.构建数据集:import tushare as tsts.set_token(' ')#ts.set_token('your token here')pro = ts.pro_api()df1 = pro.cctv_news(date='20190916')#0df2 = pro.cctv_news(date='...原创 2019-10-06 10:32:54 · 1915 阅读 · 0 评论 -
节约读取pandas的内存资源
节约读取pandas的内存资源# reduce memorydef reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 ...原创 2019-07-19 09:57:09 · 157 阅读 · 0 评论 -
用python调度hanlp
下载jpype1:https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype安装对应版本:pip install xxxxxx(对应文件)注意: pip install jpype1报错下载安装hanlp:官方文档:github:https://github.com/hankcs/HanLP下载地址:https://github.com/hankc...原创 2019-07-04 14:08:51 · 2117 阅读 · 1 评论 -
nltk扩展包下载慢解决办法
下载nltk非常简单:pip install nltk下载nltk扩展包:import nltknltk.download()之后会出现一个NLTK Downloader对话框然后点击下载,你会发现下载很慢,而且很容易出错.。解决办法:1.去github下载:https://github.com/nltk/nltk_data 里面的packages就是我们想要找到的nltk_d...原创 2019-07-04 13:19:45 · 9482 阅读 · 20 评论 -
期末复习:题库练习,自用代码。
把.doc,.docx变为txt工具:http://www.multidoc-converter.com/en/download/index.html操作过程:https://www.jianshu.com/p/1e8af633fc08f = open('C:/Users/Administrator/Desktop/新建文件夹/各讲练习题/转化/第一讲.txt','r',encodin...原创 2019-06-21 11:40:48 · 840 阅读 · 0 评论 -
金融时间序列处理——(tushare新闻数据合并)添加星期
ts.set_token('')import datetimestart='20160601'end='20170101'list1 = []datestart=datetime.datetime.strptime(start,'%Y%m%d')dateend=datetime.datetime.strptime(end,'%Y%m%d')while datestart<...原创 2019-05-24 14:49:39 · 908 阅读 · 0 评论 -
kesci任务——公开新闻预测A股行业板块动向,jieba分词尝试
import jiebaimport jieba.analyseimport codecsimport pandas as pdimport numpy as nprows=pd.read_csv('/home/kesci/input/stockpredic_15501/20190506_NEWS.csv',header=0,encoding='utf-8',dtype=str)...原创 2019-05-10 11:21:40 · 484 阅读 · 0 评论 -
时间序列分类实践介绍(使用Python代码)
https://www.analyticsvidhya.com/blog/2019/01/introduction-time-series-classification/介绍分类时间序列数据?这真的有可能吗?可能有什么用呢?这些只是您阅读本文标题时必须具备的一些问题。这是公平的 - 当我第一次遇到这个概念时,我有完全相同的想法!我们大多数人的时间序列数据主要涉及产生预测的交易。无论是预...翻译 2019-02-24 16:36:29 · 4267 阅读 · 0 评论 -
Keras如何保存和载入训练好的模型和参数
1,保存模型:my_model = create_model_function( ...... )my_model.compile( ...... )my_model.fit( ...... )model_name . save( filepath, overwrite: bool=True, include_optimizer: bool=True )filepath:保存的...转载 2019-02-10 20:37:03 · 4352 阅读 · 0 评论 -
Dataframe print 省略号问题
pandas数据分析时经常需要打印输出数据,当数据量大时,输出的展示设置非常重要,好的展示可以帮助更好地理解数据!pandas相关的显示设置函数主要有以下三个:import pandas as pd(1)pd.pandas.set_option('参数名', 参数值) :设置相关显示选项(2)pd.pandas.get_option('参数名', 参数值) :获取相关显示选项(3)p...转载 2019-01-28 17:04:05 · 1313 阅读 · 0 评论 -
Python熵权法确定权重
熵权法赋权是一种客观赋权方法, 在一些评价中, 通过对熵的计算确定权重, 就是根据各项评价指标值的差异程度, 确定各评价指标的权重。详细介绍及计算公式可参考文献[1]。主要步骤包括(1)原始数据矩阵进行标准化(2)定义熵(3)定义熵权。具体步骤也可参考https://blog.csdn.net/wangh0802/article/details/53981356。这里不再赘述。这里通过Pyth...转载 2019-01-22 10:30:10 · 2391 阅读 · 3 评论 -
pandas的ewm函数
官方文档:http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.ewm.htmlhttps://blog.csdn.net/Papageno_Xue/article/details/82705157重要汇总:!!!!!https://blog.csdn.net/xiaodongxiexie/ar...转载 2019-01-31 16:43:01 · 19014 阅读 · 0 评论 -
利用python的KMeans和PCA包实现聚类算法
https://www.cnblogs.com/yjd_hycf_space/p/7094005.html from sklearn.cluster import KMeansfrom sklearn.decomposition import PCAimport pandas as pdimport numpy as npimport matplotlib.pyplo...转载 2019-01-25 22:21:58 · 968 阅读 · 0 评论 -
Python爬虫项目整理
WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet...转载 2018-07-15 10:24:13 · 353 阅读 · 0 评论 -
Python实现图片转字符画(在doc命令下运行!)
# -*- coding: utf-8 -*-"""Created on Wed Jul 18 17:59:59 2018@author: Administrator"""from PIL import Image import argparse # 命令行输入参数处理 parser = argparse.ArgumentParser() parser.add_a...原创 2018-07-18 18:13:38 · 132 阅读 · 0 评论 -
python图片处理——素描
# -*- coding: utf-8 -*-"""Created on Wed Jul 18 17:47:41 2018@author: Administrator"""from PIL import Imageimport numpy as npa = np.asarray(Image.open("C:/Users/Administrator/Desktop/2.png")...原创 2018-07-18 18:00:15 · 1683 阅读 · 0 评论 -
分类精度不够:您可以使用更多性能测量
原文https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/当您为分类问题建立模型时,您几乎总是希望将该模型的准确性视为所有预测中正确预测的数量。这是分类的准确性。在之前的文章中,我们研究了使用交叉验证和多重交叉验证来评估未预见数据预...翻译 2018-06-01 17:02:42 · 2085 阅读 · 0 评论 -
用Pandas在Python中可视化机器学习数据
https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/ 用Pandas在Python中可视化机器学习数据作者 Jason Brownlee 于 2016 年5月16日在 Python机器学习您必须了解您的数据才能从机器学习算法中获得最佳结果。了解更多有关数据的最快方法是使...翻译 2018-06-03 13:27:50 · 1455 阅读 · 0 评论 -
python sklearn PCA源码阅读:参数n_components的设置(设为‘mle’出错的原因)
在介绍n_components参数之前,首先贴一篇PCA参数详解的文章:http://www.cnblogs.com/akrusher/articles/6442549.html。 按照文章中对于n_components的介绍,我对一个1000x9000的array进行了主成分分析,n_components选择为"mle“,即自动选择(因为刚接触PCA,并不知道咋设置( ˇˍˇ )),尝试几次,...转载 2018-06-03 13:09:57 · 9366 阅读 · 0 评论