《机器学习实战》,我翻过两遍,每一次都没能读完。
机器学习实战学习资料获取方式在文末
为什么呢?
先说说好的一面。《机器学习实战》里面讲到了诸多的机器学习算法。虽说现在深度学习、强化学习等等的算法大行其道,但机器学习算法如线性回归、决策树等等,都仍然有其应用价值。这是因为:
- 深度学习对于运行的机器要求很高,在没有GPU的情况下,只要层数一多,就会耗费大量的时间,训练过程过长,投入资源较多;
- 深度学习算法等对于样本数要求较高,虽然有一些手段可以通过现有样本数进行一定的变化扩充,但一方面这会降低精度,另一方面需求的样本数仍然不是一个小数目;
- 经典机器学习算法虽然看起来简单,但是包括深度学习也是从这些经典算法演进而来的,我们通过经典算法的学习,才能够真正补全自己的知识体系,并且也可以多视角去审视问题,不能因为深度学习火就无视了其他方向;
- 经典算法用到的很多训练技巧,同样适用于深度学习,而且你可以在更简单的模型上应用体会;
第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
能学到的机器学习算法**
1. kNN
2. 线性回归
3. 多项式回归
4. 逻辑回归
5. 模型正则化
6. PCA
7. SVM
8. 决策树
9. 随机森林
10. 集成学习
11. 模型选择
12. 模型调试
python爬取小说技巧:
import requests
import time
import re
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.7 Safari/537.36'}
num = 1
def get_info(url):
res=requests.get(url,headers=headers)
if res.status_code==200:
contents = re.findall('<p>(.*?)</p>',res.content.decode('utf-8'),re.S)
contents = str(contents).replace('&rdquo','')
contents = str(contents).replace('&hellip','')
contents = str(contents).replace('&ldquo','')
contents = str(contents).replace(''''天才一秒记住本站网站 www.doupoxs.com 中间是<span style="color:blue">斗破 拼音+小说 首字母</span> 连起来就是斗破小说,喜欢我就记住我吧!''','')
with open('F:/doupo.txt','a',encoding='utf-8') as f:
f.write(contents+'\n')
else:
pass
if __name__=='__main__':
urls=['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(2,1665)]
for url in urls:
get_info(url)
print(num)
num += 1
time.sleep(1)
《机器学习实战》获取方式: