20190321 今日总结_linearsvc中的惩罚函数啥意思?-CSDN博客

本文链接：https://blog.csdn.net/weixin_40910277/article/details/88714456

Q1-读取csv格式数据时无法显示汉字

尝试在保存csv时，在excel的工具栏中选择UTF-8编码，但用pycharm打开仍然乱码。
尝试在pycharm的csv界面下右键-File Encoding-GBK，同时更改读取文件代码行：
datafile = pd.read_csv(‘2015-2018.csv’, header=0, encoding=“GBK”)

Q2-对某列数据进行一系列拆分操作后，再使用pd.concat函数发现不能完好拼接

为了使后续构造数据的index也能同时使用，这里重制index。添加代码行：datafile = datafile.reset_index(drop=True)

Q3-构造特征：计算日期列中数据为该年第几天

year = [x[0] for x in date_in_csv.str.split(’/’)]
month = [x[1] for x in date_in_csv.str.split(’/’)] # 存在日期列缺失值时无法使用
day = [x[2] for x in date_in_csv.str.split(’/’)]

Q4-独热码编码

pd.get_dummies(datasets, sparse=True)

Q5-z-score标准化

from sklearn.preprocessing import scale

Q6-pandas中两列数据相加减乘除操作

n1_n2 = pd.DataFrame({‘nnn’: n1 / n2})

Q7-从本文件夹的其他py文件中调用函数

被调用文件中用def定义函数，调用时只需要直接import就好啦

Q8- sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别

https://www.cnblogs.com/zealousness/p/7757603.html
1、LinearSVC使用的是平方hinge loss，SVC使用的是绝对值hinge loss
（我们知道，绝对值hinge loss是非凸的，因而你不能用GD去优化，而平方hinge loss可以）
2、LinearSVC使用的是One-vs-All（也成One-vs-Rest）的优化方法，而SVC使用的是One-vs-One
3、对于多分类问题，如果分类的数量是N，则LinearSVC适合N模型，而SVC适合N(N-1)/2模型
4、对于二分类问题一般只有其中一个合适，具体问题具体对待
5、LinearSVC基于liblinear，罚函数是对截矩进行惩罚；SVC基于libsvm，罚函数不是对截矩进行惩罚。
6、我们知道SVM解决问题时，问题是分为线性可分和线性不可分问题的，liblinear对线性可分问题做了优化，故在大量数据上收敛速度比libsvm快（一句话，大规模线性可分问题上LinearSVC更快）