- 博客(16)
- 问答 (1)
- 收藏
- 关注
原创 对libsvm使用步骤的认识
libsvm的使用步骤:1.转换训练数据为相应的格式。2.有时候可能需要使用 svm-scale对数据进行相应的缩放,有利于训练建模。3.使用grid.py或者easy.py进行参数优化。4.使用svm-train建模和svm-predict进行预测。以上就是对libsvm使用步骤的认识。...
2019-02-27 11:43:45 128
原创 matlab读取csv文件的认识
使用csvread读取csv文件的部分数据的时候,如果不能读取,可以先读取整个文件,再进行取数据。以上就是对读取csv文件的认识。
2019-02-26 12:15:59 2602 1
原创 对pandas读取csv数据的认识
pandas读取csv数据的时候,如果csv数据没有header,那在读取的时候要使用:data = pd.read_csv('data.csv', header=None)以上就是对pandas读取csv数据的认识。
2019-02-25 20:01:35 278
原创 处理文本数据
下面是处理文本数据的例子。from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom s...
2019-02-25 12:12:22 345
原创 对corpus数据处理的认识
下面是代码:from sklearn import model_selection, preprocessing, linear_model, naive_bayes, metrics, svmfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizerfrom sklearn import deco...
2019-02-25 12:00:18 2137
原创 对处理文本数据函数的一些认识
常用的有下面的函数。主要有两个api来实现: CountVectorizer 和 TfidfVectorizerCountVectorizer:只考虑词汇在文本中出现的频率TfidfVectorizer:除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征相比之下,文本条目越多,Tfid的效果会越显著。以上...
2019-02-25 11:56:39 234
原创 对处理文本数据的认识
处理文本常用的方法是词袋法。词袋法:不考虑词语出现的顺序,每个出现过的词汇单独作为一列特征这些不重复的特征词汇集合为词表每一个文本都可以在很长的词表上统计出一个很多列的特征向量如果每个文本都出现的词汇,一般被标记为 停用词 不计入特征向量以上就是对处理文本数据的认识。...
2019-02-25 11:50:26 309
原创 提取网页数据保存为csv文件
import requestsr = requests.get('https://www.baidu.com')from bs4 import BeautifulSoupsoup = BeautifulSoup(r.text, 'html.parser')results = soup.find_all('span', attrs={'class':'short-desc'})recor...
2019-02-24 15:01:06 2767 1
原创 对命令行执行python程序的认识
在命令提示符窗口(Windows)使用python解释器第一次运行代码后,修改源代码,如若再次运行需要退出重新进入python解释器,否则仍将运行第一次执行过的代码。以上就是对命令行执行python程序的认识。...
2019-02-24 14:13:57 341
原创 读取目录下的特定文件
# -*- coding: utf-8 -*- import os def file_name(file_dir): L=[] for root, dirs, files in os.walk(file_dir): for file in files: if os.path.splitext(file...
2019-02-24 14:10:01 151
原创 打印目录的目录,路径和文件
1 # -*- coding: utf-8 -*- 2 3 import os 4 5 def file_name(file_dir): 6 for root, dirs, files in os.walk(file_dir): 7 print(root) #当前目录路径 8 ...
2019-02-24 13:51:35 820
原创 提取本地网页文本
下面是代码:path = 'E:/data'htmlfile = open(path, 'r', encoding='utf-8')# htmlfile = open(path, 'rb')htmlhandle = htmlfile.read()from bs4 import BeautifulSoupsoup = BeautifulSoup(htmlhandle, 'html.par...
2019-02-24 12:15:53 573
原创 提取网页代码
下面是代码:import requestsurl = 'https://www.baidu.com'data = requests.get(url)with open('aaa.csv', 'w') as out_f: out_f.write(data.text)上面的代码可以提取网页的代码。以上就是对提取网页代码的认识。...
2019-02-24 11:45:46 2728 2
原创 提取网页所有文本
下面是代码:import requestsr = requests.get('https://www.baidu.com')from bs4 import BeautifulSoupsoup.BeautifulSoup(r.text, 'html.parser')print(soup.get_text())上面的代码就可以提取网页的文本。以上就是对提取网页所以文本的认识。...
2019-02-24 11:42:21 6377 1
原创 对matlab中交叉验证的认识
matlab中有专门用于进行交叉验证的函数,是crossvalind函数,下面是例子: load fisheriris indices = crossvalind('Kfold',species,10); cp = classperf(species); for i = 1:10 test = (indices == i); train = ~test; clas...
2019-02-22 11:20:04 2521
空空如也
有一些C++的程序代码看不懂
2014-10-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人