2019年02月_csdn_LYY

原创对libsvm使用步骤的认识

libsvm的使用步骤：1.转换训练数据为相应的格式。2.有时候可能需要使用 svm-scale对数据进行相应的缩放，有利于训练建模。3.使用grid.py或者easy.py进行参数优化。4.使用svm-train建模和svm-predict进行预测。以上就是对libsvm使用步骤的认识。...

2019-02-27 11:43:45 128

转载对libsvm的使用教程

转载地址：https://www.cnblogs.com/GuoJiaSheng/p/4480497.html

2019-02-27 11:40:18 326

原创 matlab读取csv文件的认识

使用csvread读取csv文件的部分数据的时候，如果不能读取，可以先读取整个文件，再进行取数据。以上就是对读取csv文件的认识。

2019-02-26 12:15:59 2602 1

原创对pandas读取csv数据的认识

pandas读取csv数据的时候，如果csv数据没有header，那在读取的时候要使用：data = pd.read_csv('data.csv', header=None)以上就是对pandas读取csv数据的认识。

2019-02-25 20:01:35 278

原创处理文本数据

下面是处理文本数据的例子。from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom s...

2019-02-25 12:12:22 345

下面是代码：from sklearn import model_selection, preprocessing, linear_model, naive_bayes, metrics, svmfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizerfrom sklearn import deco...

2019-02-25 12:00:18 2137

原创对处理文本数据函数的一些认识

常用的有下面的函数。主要有两个api来实现： CountVectorizer 和 TfidfVectorizerCountVectorizer：只考虑词汇在文本中出现的频率TfidfVectorizer：除了考量某词汇在文本出现的频率，还关注包含这个词汇的所有文本的数量能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征相比之下，文本条目越多，Tfid的效果会越显著。以上...

2019-02-25 11:56:39 234

原创对处理文本数据的认识

处理文本常用的方法是词袋法。词袋法：不考虑词语出现的顺序，每个出现过的词汇单独作为一列特征这些不重复的特征词汇集合为词表每一个文本都可以在很长的词表上统计出一个很多列的特征向量如果每个文本都出现的词汇，一般被标记为停用词不计入特征向量以上就是对处理文本数据的认识。...

2019-02-25 11:50:26 309

原创提取网页数据保存为csv文件

import requestsr = requests.get('https://www.baidu.com')from bs4 import BeautifulSoupsoup = BeautifulSoup(r.text, 'html.parser')results = soup.find_all('span', attrs={'class':'short-desc'})recor...

2019-02-24 15:01:06 2767 1

原创对命令行执行python程序的认识

在命令提示符窗口（Windows）使用python解释器第一次运行代码后，修改源代码，如若再次运行需要退出重新进入python解释器，否则仍将运行第一次执行过的代码。以上就是对命令行执行python程序的认识。...

2019-02-24 14:13:57 341

原创读取目录下的特定文件

# -*- coding: utf-8 -*- import os def file_name(file_dir): L=[] for root, dirs, files in os.walk(file_dir): for file in files: if os.path.splitext(file...

2019-02-24 14:10:01 151

1 # -*- coding: utf-8 -*- 2 3 import os 4 5 def file_name(file_dir): 6 for root, dirs, files in os.walk(file_dir): 7 print(root) #当前目录路径 8 ...

2019-02-24 13:51:35 820

原创提取本地网页文本

下面是代码：path = 'E:/data'htmlfile = open(path, 'r', encoding='utf-8')# htmlfile = open(path, 'rb')htmlhandle = htmlfile.read()from bs4 import BeautifulSoupsoup = BeautifulSoup(htmlhandle, 'html.par...

2019-02-24 12:15:53 573

原创提取网页代码

下面是代码：import requestsurl = 'https://www.baidu.com'data = requests.get(url)with open('aaa.csv', 'w') as out_f: out_f.write(data.text)上面的代码可以提取网页的代码。以上就是对提取网页代码的认识。...

2019-02-24 11:45:46 2728 2

原创提取网页所有文本

下面是代码：import requestsr = requests.get('https://www.baidu.com')from bs4 import BeautifulSoupsoup.BeautifulSoup(r.text, 'html.parser')print(soup.get_text())上面的代码就可以提取网页的文本。以上就是对提取网页所以文本的认识。...

2019-02-24 11:42:21 6377 1

原创对matlab中交叉验证的认识

matlab中有专门用于进行交叉验证的函数，是crossvalind函数，下面是例子： load fisheriris indices = crossvalind('Kfold',species,10); cp = classperf(species); for i = 1:10 test = (indices == i); train = ~test; clas...

2019-02-22 11:20:04 2521

CSDN_LYY的专栏