自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 问答 (1)
  • 收藏
  • 关注

原创 对libsvm使用步骤的认识

libsvm的使用步骤:1.转换训练数据为相应的格式。2.有时候可能需要使用 svm-scale对数据进行相应的缩放,有利于训练建模。3.使用grid.py或者easy.py进行参数优化。4.使用svm-train建模和svm-predict进行预测。以上就是对libsvm使用步骤的认识。...

2019-02-27 11:43:45 128

转载 对libsvm的使用教程

转载地址:https://www.cnblogs.com/GuoJiaSheng/p/4480497.html

2019-02-27 11:40:18 326

原创 matlab读取csv文件的认识

使用csvread读取csv文件的部分数据的时候,如果不能读取,可以先读取整个文件,再进行取数据。以上就是对读取csv文件的认识。

2019-02-26 12:15:59 2602 1

原创 对pandas读取csv数据的认识

pandas读取csv数据的时候,如果csv数据没有header,那在读取的时候要使用:data = pd.read_csv('data.csv', header=None)以上就是对pandas读取csv数据的认识。

2019-02-25 20:01:35 278

原创 处理文本数据

下面是处理文本数据的例子。from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom s...

2019-02-25 12:12:22 345

原创 对corpus数据处理的认识

下面是代码:from sklearn import model_selection, preprocessing, linear_model, naive_bayes, metrics, svmfrom sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizerfrom sklearn import deco...

2019-02-25 12:00:18 2137

原创 对处理文本数据函数的一些认识

常用的有下面的函数。主要有两个api来实现: CountVectorizer 和 TfidfVectorizerCountVectorizer:只考虑词汇在文本中出现的频率TfidfVectorizer:除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征相比之下,文本条目越多,Tfid的效果会越显著。以上...

2019-02-25 11:56:39 234

原创 对处理文本数据的认识

处理文本常用的方法是词袋法。词袋法:不考虑词语出现的顺序,每个出现过的词汇单独作为一列特征这些不重复的特征词汇集合为词表每一个文本都可以在很长的词表上统计出一个很多列的特征向量如果每个文本都出现的词汇,一般被标记为 停用词 不计入特征向量以上就是对处理文本数据的认识。...

2019-02-25 11:50:26 309

原创 提取网页数据保存为csv文件

import requestsr = requests.get('https://www.baidu.com')from bs4 import BeautifulSoupsoup = BeautifulSoup(r.text, 'html.parser')results = soup.find_all('span', attrs={'class':'short-desc'})recor...

2019-02-24 15:01:06 2767 1

原创 对命令行执行python程序的认识

在命令提示符窗口(Windows)使用python解释器第一次运行代码后,修改源代码,如若再次运行需要退出重新进入python解释器,否则仍将运行第一次执行过的代码。以上就是对命令行执行python程序的认识。...

2019-02-24 14:13:57 341

原创 读取目录下的特定文件

# -*- coding: utf-8 -*- import os def file_name(file_dir): L=[] for root, dirs, files in os.walk(file_dir): for file in files: if os.path.splitext(file...

2019-02-24 14:10:01 151

原创 打印目录的目录,路径和文件

1 # -*- coding: utf-8 -*- 2 3 import os 4 5 def file_name(file_dir): 6 for root, dirs, files in os.walk(file_dir): 7 print(root) #当前目录路径 8 ...

2019-02-24 13:51:35 820

原创 提取本地网页文本

下面是代码:path = 'E:/data'htmlfile = open(path, 'r', encoding='utf-8')# htmlfile = open(path, 'rb')htmlhandle = htmlfile.read()from bs4 import BeautifulSoupsoup = BeautifulSoup(htmlhandle, 'html.par...

2019-02-24 12:15:53 573

原创 提取网页代码

下面是代码:import requestsurl = 'https://www.baidu.com'data = requests.get(url)with open('aaa.csv', 'w') as out_f: out_f.write(data.text)上面的代码可以提取网页的代码。以上就是对提取网页代码的认识。...

2019-02-24 11:45:46 2728 2

原创 提取网页所有文本

下面是代码:import requestsr = requests.get('https://www.baidu.com')from bs4 import BeautifulSoupsoup.BeautifulSoup(r.text, 'html.parser')print(soup.get_text())上面的代码就可以提取网页的文本。以上就是对提取网页所以文本的认识。...

2019-02-24 11:42:21 6377 1

原创 对matlab中交叉验证的认识

matlab中有专门用于进行交叉验证的函数,是crossvalind函数,下面是例子: load fisheriris indices = crossvalind('Kfold',species,10); cp = classperf(species); for i = 1:10 test = (indices == i); train = ~test; clas...

2019-02-22 11:20:04 2521

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除