readme文件相似度检测

最新推荐文章于 2022-04-29 11:40:06 发布

寻找自由的咸鱼

最新推荐文章于 2022-04-29 11:40:06 发布

阅读量329

点赞数

文章标签： pycharm

本文链接：https://blog.csdn.net/qq_36206070/article/details/105650046

版权

需要安装的库有

markdown2,html2text（用pip可以安装，conda报错）

anaconda用清华源提供的有什么问题

conda不能使用，因为暂停服务

刚安装anaconda需要干什么

添加系统变量 anaconda和 anaconda/Scripts
在这里插入图片描述
conda upgrade --all 把所有工具包进行升级

有些包下载出错怎么办

conda和pip都试一下
考虑到conda和pip之间的相似性，有些人试图将这些工具结合起来创建数据科学环境也就不足为奇了。将pip与conda结合的主要原因是有些包只能通过pip安装。 Anaconda创酷提供超过1,500个软件包，包括最流行的数据科学，机器学习和AI框架。这些，以及包括conda-forge和bioconda在内的数据通过Anaconda云提供的数千个附加软件包，可以使用conda进行安装。尽管有大量的软件包，但与PyPI上提供的150,000多个软件包相比，它仍然很小。有时候需要的包没有conda包，但在PyPI上有，可以用pip安装。

怎么使用tensorflow

tensorflow 目前只支持python3.5以内，所以需要新建一个python环境用来下载tensorflow

怎么新建环境

创建一个名称为python35的虚拟环境并指定python版本为3.5
conda create --name python35 python=3.5
在这里插入图片描述

在当前环境用conda或pip 安装就可以了
如果忘记了名称我们可以先用conda env list

新建的环境在envs文件下。

怎么在pycharm随意切换呢

在这里插入图片描述

安装tensorflow一直报错怎么办

python一定要64位的，32位会报错

anaconda版本和自己想要的库不兼容怎么办

conda install python=3.6 进行升级或降级（3.6自定义）

python3.7安装tensorflow,pytorch,sklearn

sklearn

安装Numpy ，可以通过pip，也可以直接在pycharm中的setting-Project Interpreter中安装；
安装Scipy ，方法同上；
安装scikit-learn ，方法同时；

tensorflow

python 3.7直接 conda install tensorflow就可以了
检验安装成功的代码
import tensorflow as tf
tf.compat.v1.Session()
参考链接：https://blog.csdn.net/qq_27879311/article/details/90755886

pytorch

python 3.7直接 conda install pytorch就可以了
检验安装成功的代码
import torch # 如正常则静默
a = torch.Tensor([1.]) # 如正常则静默

sklearn

KNN模型简单实用

from sklearn.datasets import load_iris
#导入iris的数据
from sklearn.model_selection import train_test_split
#将训练数据进行分割
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection  import cross_val_score

iris = load_iris()
X = iris.data
y = iris.target

# test train split #
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
# 随机分开数据 测试数据占30%
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)# 用knn模型进行训练
y_pred = knn.predict(X_test) # 训练好的模型进行预测
print(knn.score(X_test, y_test)) #对比结果得出分数

交叉检验

将训练数据集合随机切分为S个互不相交、大小相同的子集，将S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S种选择重复进行；最后选出S次测评中平均测试误差最小的模型。

knn = KNeighborsClassifier(n_neighbors=5)
scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')
#cv就是S的值，输出的scores为cv长度
print(scores)

数据标准化

a = np.array([[1,-20,10],
             [2,20,10],
             [3,30,10]],dtype=np.float64)
print(preprocessing.scale(a)) #对每一列进行标准化

在这里插入图片描述

保存模型

方法一：pickle

from sklearn import svm
from sklearn import datasets
clf = svm.SVC()
iris = datasets.load_iris()
X,y = iris.data,iris.target
clf.fit(X,y)
import pickle# 保存模型到clf.pickle
with open('clf.pickle','wb') as f:
    pickle.dump(clf,f)
#使用模型
with open('clf.pickle','rb') as f:
    clf2 = pickle.load(f)
    print(clf2.predict(X[0:1]))#预测第一个数据

方法二：joblib

from sklearn.externals import joblib
#存储模型
joblib.dump(clf,'clf.pkl')
#调用模型
clf3 = joblib.load('clf.pkl')
print(clf3.predict(X[0:1]))

检查正确率

from sklearn import metrics
knn = KNeighborsClassifier() #初始化模型
knn.fit(X_train,y_train) #训练模型
knn.predict(X_test)#预测数据
metrics.accuracy_score(y_test, knn.predict(X_test))#检查分数（正确率）

y_pre = cross_val_predict(knn, X_train, y_train, cv=5)#交叉验证并返回预测结果（对训练数据的预测结果）
metrics.accuracy_score(y_train, y_pre)#检查分数

打印分类主要指标

python
classification_report函数用于显示主要分类指标的文本报告
主要参数: 
y_true：1维数组，或标签指示器数组/稀疏矩阵，目标值。 
y_pred：1维数组，或标签指示器数组/稀疏矩阵，分类器返回的估计值。 
sample_weight：类似于shape = [n_samples]的数组，可选项，样本权重。 
digits：int，输出浮点值的位数．

举例：
from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 2]
y_pred = [0, 0, 2, 2, 1]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))