学前班的博客

学前班

python多线程爬取ts视频

http://www.xigua66.com/ 视频网站,可能会报病毒,慎点。 1、http过程 由于ts文件是m3u8的传输文件,m3u8是苹果公司推出一种视频播放标准,是m3u的一种,不过 编码方式是utf-8,是一种文件检索格式,将视频切割成一小段一小段的ts格式的视频文件,然后存在...

2019-04-07 09:51:52

阅读数 75

评论数 0

爬虫杂谈

1. cookie是用来记录访问WEB信息的,所以要维持账号密码登录状态的就要其用cookie。一般情况下,建议关闭,特别是使用随机proxy代理的时候。因为你IP变了,cookie没变,服务器一看就知道请求有问题。2. 关于fiddler。当URL需要传送表单数据,或者需要进行网页跳转时,可用F...

2018-04-10 13:55:39

阅读数 67

评论数 0

selenium和PhantomJS爬取动态网页

一、selenium和PhantomJS用法简介 selenium是web的自动化测试工具,类似按键精灵,可以直接运行在浏览器上。 pip install selenium PhantomJS是基于webkit的无界面浏览器,使用时,无需输入header等。 需要从 pha...

2018-03-25 09:25:04

阅读数 3591

评论数 1

爬虫之xpath

一、xpath的语法 xpath是用来对XML文件进行解析的。 针对如下的XML文件: Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 200...

2018-03-24 14:47:43

阅读数 123

评论数 0

web客户端授权验证-proxy

对于一般的proxy设置可以参考:静态网页爬取对于web客户端授权的验证如下网页的验证,无法查看网页源码的。比如登录ftp。可以使用如下代码:# -*- coding:utf-8 -*- import urllib.request test = "admin&quot...

2018-03-23 20:52:55

阅读数 364

评论数 0

Ajax网页爬取

Ajax网页,指的是类似豆瓣电影排行这样的页面。 鼠标拉到最下面时,会自动加载;同时,网页的url没有改变; https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&int...

2018-03-22 21:25:11

阅读数 660

评论数 0

静态网页爬取

使用python爬取网页有很多的API可以使用,但由于API太多,导致有时不知选择哪个。有时,我们想要设置proxy,就要用这套API,想要设置cookie,就得用另一套API。故总结了一个较为全面的爬取流程API,可实现timeout、proxy、cookie、header(7个字段的值设置)以...

2018-03-03 16:52:15

阅读数 455

评论数 0

ROC和AUC

绘制ROC曲线,计算AUC,涉及到sklearn.metrics。 一般的分类器都有predict_proba或者decision_function method。使用这个method得到预测的值。 注意:ROC和AUC使用的都是训练集的数据。 sklearn.met...

2018-02-03 17:20:21

阅读数 178

评论数 0

AdaBoost分类

一、函数说明 使用的是sklearn.ensemble模块。 sklearn.ensemble.AdaBoostClassifier有5个参数: 参数说明如下: base_estimator:可选参数,默认为Dec...

2018-02-03 16:07:20

阅读数 299

评论数 0

支持向量机(SVM)分类

一、函数说明 sklearn.svm模块提供了很多模型,它是基于libsvm实现的。 我们选用svm.SVC,该函数有14个参数: 参数说明如下: C:惩罚项,float类型,可选参数,默认为1.0,C越大,即对分...

2018-02-01 22:01:38

阅读数 887

评论数 0

逻辑回归分类

一、函数说明 使用的是sklearn.linear_model中的函数,共有14个参数。 参数说明如下: penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持...

2018-02-01 15:19:51

阅读数 744

评论数 0

朴素贝叶斯分类

一、函数说明 朴素贝叶斯是一类比较简单的算法,scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树,KNN之类的算法,朴素贝叶斯需要关注的参数是比较少的,这样也比较容易掌握。在scikit-learn中,一共有4个(0.20版本,0.19版本只有3个)贝叶斯的分类算法类...

2018-01-31 11:16:57

阅读数 144

评论数 0

决策树分类

一、函数说明 sklearn.tree模块提供了决策树模型,用于解决分类问题和回归问题。 使用的是DecisionTreeClassifier和export_graphviz,前者用于决策树构建,后者用于决策树可视化。DecisionTreeClassifier一共有12个参数: clas...

2018-01-30 22:12:33

阅读数 267

评论数 0

k-近邻分类

一、函数说明 sklearn.neighbors模块实现了k-近邻算法 使用sklearn.neighbors.KNeighborsClassifier就可以实现k-近邻算法。KNeighborsClassifier函数一共有8个参数: class sklearn.nei...

2018-01-29 15:29:14

阅读数 266

评论数 0

scikit-learn简介

scikit-learn,简称sklearn,是机器学习常用的库,本文使用该库来实现《机器学习实战》中的算法。 官网:http://scikit-learn.org/stable/ 当前版本:0.19.1 API说明:http://scikit-learn.org/stable/module...

2018-01-28 17:19:07

阅读数 157

评论数 0

Subversion SVN服务器

一、下载安装 svn是apache的一个开源项目,全称为subversion。是一个基于版本的项目管理软件,一般在多人开发的项目中使用,目前svn已经替代了原来的cvs。大多数情况下,svn服务安装在linux服务器上。下面简单的说一下svn在windows服务上的安装。   1、准备svn...

2017-08-26 13:27:33

阅读数 239

评论数 0

文件服务器

文件服务器的搭建及配置 重复数据删除、工作文件夹、高可用配置DFS、规则触发邮件报警通知、 文件屏蔽功能、配置全局配额、枚举功能、配置共享 http://lidongni.blog.51cto.com/2554605/d-9/p-5 http://l...

2017-08-11 22:30:16

阅读数 139

评论数 0

服务器杂谈

加入域 计算机属性中->更改设置->更改。。。(和PC加入域一样) 赋予管理员权限 管理工具->计算机管理。。。 http://blog.csdn.net/u012260117/article/details/51480489 ...

2017-08-10 23:05:49

阅读数 98

评论数 0

DHCP服务器

安装DHCP服务器 Windows版:http://dreamfire.blog.51cto.com/418026/135130/ Linux版:http://blog.csdn.net/derkampf/article/details/52280062 VMware配置DHCP,客户机...

2017-08-05 17:53:10

阅读数 186

评论数 0

DNS服务器

安装DNS服务器 单独安装DNS服务器:http://jinning.blog.51cto.com/10009776/1624270 注意事项:一般来说,DC和DNS是放在一起的;首选DNS服务器为DC的IP(if dns is in dc),但不是127.0.0.1; 查找区域 ...

2017-08-05 11:43:36

阅读数 156

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭