机器学习
少游223
语音识别算法
展开
-
机器学习实战第二章 KNN算法的实现
from numpy import *import operatordef readfile(filename): fr =open(filename) arrayOLines = fr.readlines() numbersOFLines = len(arrayOLines) returnMat = zeros((numbersOFLines, 3)) ...原创 2018-02-26 22:04:26 · 273 阅读 · 0 评论 -
使用shuffle进行打乱数据的问题总结
最近在做xgboost分类的时候需要用到shuffle来打乱数据,但是遇到的问题是数据量太大所造成的当shuffle数据时程序会卡死,所以,我就先把pandas数据进行shuffle,然后再转换成numpy型数据: pua_data = np.array(shuffle(pua_data))后来在使用shuffle时用了np中的shuffle,造成的结果就是把数据全丢失了,当时用的是...原创 2019-01-08 09:41:31 · 3687 阅读 · 0 评论 -
lcs 用动态规划计算最长公共子序列 (python c)
伪代码如下:for x = 0 to n do for y = 0 to m do if (x == 0 || y == 0) then LCS(x, y) = 0 else if (Ax == By) then LCS(x, y) = LCS(x - 1,y - 1) + 1 else...转载 2019-01-08 10:11:42 · 265 阅读 · 0 评论 -
scp 拷贝数据从一台服务器到另一台 出现的参数太长导致无法拷贝的问题解决方式
常见拷贝方式有scp -r 与scp --------/* ,这两者方式都有人用,但是后者用的话会造成问题就是传递给scp的参数太长,导致失败,解决办法是使用scp -r 进行copy,why we can use this way to solve this problem? Because scp 采用的是递归的方式复制,众所周知,递归方式可以节省资源,所以完美的解决了这个办法。同时记录一...原创 2019-01-15 14:46:21 · 2270 阅读 · 0 评论 -
python 自定义包的导入失败
检查我自定义的包与程序都在合适的位置,但是死活就是无法导入,最后才知道问题出在哪里?每一个包目录下面都会有一个__init__.py的文件,这个文件是必须存在的,否则,Python就把这个目录当成普通目录(文件夹),而不是一个包。__init__.py可以是空文件,也可以有Python代码,因为__init__.py本身就是一个模块,而它的模块名就是对应包的名字。调用包就是执行包下的__ini...原创 2019-02-18 14:34:15 · 3484 阅读 · 3 评论 -
python画语音频谱图
import waveimport structfrom scipy import *import pyworld as pwfrom scipy.io import wavfileimport matplotlib.pyplot as pltimport numpy as npimport osimport soundfile as sf#读取wav文件root_wav...原创 2019-03-20 13:16:06 · 5522 阅读 · 0 评论 -
jupyter notebook 无法打开虚拟环境
conda install nb_conda_kernels原创 2019-03-20 13:35:05 · 2320 阅读 · 4 评论 -
linux 查找命令集合
可以使用grep命令来查找当前目录下所有文件中包含的某个特定字符。grep -rn "test"*r 表示递归查找 n 表示显示行号find 查找文件名find / -name file#查看文件夹下文件个数ls -lR | grep "^-"| wc -l...原创 2019-03-12 14:13:03 · 146 阅读 · 0 评论 -
配置环境出错,一路修改历记录程
运行命令,python mkbson-pua.py时,需要安装bson pandas MySQLdb(pip install MySQL-python),elasticsearch pycurl(pip无法安装[会出现版本适配问题,也就是pip安装时没有修改路径],需要用conda进行安装)问题1:from loggly.log import Log 失败,原因是版本库的名称不一样,并且后...原创 2019-03-14 15:01:58 · 54 阅读 · 0 评论 -
python如何打开bson文件
import bsonbson_file = open('test.bson','rb')bson_data = bson.loads(bson_file.read())原创 2019-03-19 11:11:14 · 4897 阅读 · 6 评论 -
数据清洗步骤
1 去频次awk -F"\t" '{if($2>=500) print $1}' file > file_new2 clean_data.sh 需要修改待清洗文件 与生成文件3 给清洗后的文件加上class sed 's/^/CLASS-应用:&/g' test.file > new_file4 合成corpus generate_corpus.sh ...原创 2019-03-30 16:16:31 · 56 阅读 · 0 评论 -
python处理xlsx方式
import xlsxwriterimport datetimeimport timeworkbook = xlsxwriter.Workbook('F://test_voice//test.xlsx')worksheet = workbook.add_worksheet()with open('F://test_voice//demo.txt','r',encoding='u...原创 2019-04-11 19:37:57 · 64 阅读 · 0 评论 -
用xgboost进行网格搜索与交叉验证时 出现的问题
cv_params = {'n_estimators': [6,10,20,50],'learning_rate':[0.1,0.01,0.05]}other_params = { 'max_depth': 5, 'min_child_weight': 1, 'seed': 0,'silent':0, 'subsample': 0.8, 'colsampl...原创 2018-12-28 14:36:18 · 2344 阅读 · 0 评论 -
关于yolo3的红绿灯检测的结果优化
环境背景:当出现漏检,错检等情况时,原模型没有应对能力。比如,当连续出现10桢图片检测为红灯情况下,当第11桢图像误剑为绿灯时,原系统无法对该错检做出规避处理。所提出的优化方法就会自动过滤掉绿灯,仍然检测输出为红灯,但是在prediction处保存为绿灯,当第12桢图像为红灯时,该系统就可以恢复为红灯,中间的绿灯对输出效果没有影响。对于误检的情况来说,只有当之前设置的10桢图像中有超过...原创 2018-10-25 09:58:12 · 141 阅读 · 0 评论 -
利用kNN算法对iris数据集进行分类,本人也做了修改使得代码可实现
from numpy import *import operatorfrom mpl_toolkits.mplot3d import Axes3Dimport matplotlib.pyplot as pltfrom matplotlib import cm#载入数据def file2matrix(fileName): file = open(fileName) al...转载 2018-03-03 15:56:11 · 5376 阅读 · 1 评论 -
NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版
TF-IDF+SVM是文本分类问题的基准线from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerimport pandas as pdimport numpy as pdfrom sklearn.svm import SVCfrom sklearn.metrics import roc_auc...原创 2018-03-21 13:56:39 · 3852 阅读 · 3 评论 -
NLP中kaggle比赛实例《每日新闻对股票市场的预测》进阶版
这篇比基础版加了什么呢?基础版是直接将文本放入TF-IDF,虽然简单方便,但还是不够严谨,可以对数据进行进一步处理,如先小写化,将文本分成晓得tokens,接着删减如the,a,that等停止词,用正则化删除数字。用这些手段将数据进行处理。from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerimpo...原创 2018-03-21 14:23:03 · 3386 阅读 · 3 评论 -
用Word2Vec来处理NLP问题
以下是主要代码,用word2vec来对词汇进行处理,只给了主要代码,其他读入和处理的代码在我博客里nlp处理的基础版和进阶版中都可以很容易查到。点击打开链接#训练NLP模型#先用最简单的Woed2Vecfrom gensim.models.word.2Vec import Word2Vecmodel = Word2Vec(corpus,size=128,windows=5,min_counts =...原创 2018-03-21 14:55:43 · 736 阅读 · 2 评论 -
python的数据分析之预处理
包括对文件的读入,以及文件的一些简单处理。import pandas as pdfrom numpy import *df = pd.read_excel('C:\\Users\\Administrator\\PycharmProjects\\untitled\\python文件包\\python与数据科学\\excel-comp-data.xlsx')df.head()m,n = sha...原创 2018-04-09 15:58:01 · 369 阅读 · 0 评论 -
用k最近邻、决策树和朴素贝叶斯比较分类效果
用三种分类方法,分别是k最近邻、决策树和朴素贝叶斯。画出数据点和决策边界,对比其区别。结果在最后的图中import numpy as npfrom numpy import *import matplotlib.pyplot as pltfrom sklearn.naive_bayes import GaussianNBfrom sklearn import metricsfrom s...原创 2018-04-13 20:30:51 · 5144 阅读 · 2 评论 -
简单处理xlsx文件,简单修改即可轻松处理其他格式文件
import pandas as pdfrom numpy import *df = pd.read_excel('C:\\Users\\Administrator\\PycharmProjects\\untitled\\python文件包\\python与数据科学\\excel-comp-data.xlsx')df.head()m,n = shape(df) #m为行数,n为列数#增...原创 2018-04-13 20:33:02 · 2142 阅读 · 0 评论 -
决策树的iris的分类
import numpy as npfrom sklearn import treefrom sklearn import metricsfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetidx = np.arange(X.shape[0])np.random.see...原创 2018-04-13 20:37:02 · 2299 阅读 · 1 评论 -
决策树回归算法
import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplotlib.pyplot as plt#创建一个随机数据集rng = np.random.RandomState(1)X = np.sort(5*rng.rand(80,1),axis = 0)y = np.sin(X).ravel(...原创 2018-04-13 20:37:43 · 2330 阅读 · 0 评论 -
yolov3使用总结
yolov3的效果比其他的模型要好很多,一共106层网络结构。处理一个视频通常fps可以达到22。如果用yolov3-tiny的话,这个模型是轻量级的,模型只有六七十层左右,速度会更好,当然这肯定会造成识别质量的下降。这个yolov3-voc可以识别20种物体,可以识别出红绿灯,但是红绿灯识别出来后无法对颜色进行判断,所以需要进行修改,同时把物体识别种类数减少,这样可以降低计算量。预先训练模型...原创 2018-10-17 15:10:37 · 102 阅读 · 0 评论 -
导入soundfile时提示 OSError: sndfile library not found
sudoapt-getinstall libsndfile1我第一遍安装libsndfile1,总是提示404ip无法访问,后来关机重启,就可以了。原创 2019-08-06 17:57:29 · 5137 阅读 · 0 评论