- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 下载m3u8加密视频
原本写了一个利用m3u8下载ts并合并成一个完整视频的文章,但有人问我说ts视频下载下来看不了,我想很大可能是下载下载的视频是加密的,所以这次我准备写一个下载加密视频的方法,这个方法不需要代码,按照一步步走就行。一、下载ts视频如利用m3u8下载ts并合并成一个完整视频所示,先把m3u8文件下载一下,但这次是加密视频,所以下载的还有一个key.key文件,如图所示。如果下载不下来也没事,在...
2019-11-14 10:46:54 10723 1
原创 利用m3u8下载ts并合并成一个完整视频
我们在用网页看视频时,很多时候视频是下载不下来的,当然这里面有很多技术来防止我们下载视频,接下来我将破解使用m3u8格式来下载视频。一般情况下,我们使用浏览器中Network来查看服务器和本机的数据传输,而视频的原地址有时也会发现,但使用m3u8格式时,我们会发现视频被分成一段一段的,每段只有几秒中,这样做的目的既可以方便播放,也可以防止下载。下面我以央视网为例,做讲解。目标:下载央视网《开讲...
2019-05-05 17:41:14 81790 11
原创 tor浏览器安装过程中遇到的问题
我在安装过程参考了Tor获得最新网桥ip及设置方法,http://www.mottoin.com/reports/112817.html两篇文章,不过在安装过程中也遇到了一些问题,总结一下。一、配置不成功 一开始我是按照集成的网桥进行连接,如下图的第一个(我们要优先选择集成网桥,如果不行的话,才会选择自定义网桥),我把所有的传输方式都试了也不行,于是我选择了第二个,自定义的网桥直接去ht...
2019-03-20 21:37:51 16103 5
原创 KNN、贝叶斯来训练词向量
前面我们已经训练好词向量了,利用Word2vec将旅游评论数据转化为词向量,也有用最大熵模型来训练模型,利用最大熵模型来训练词向量,这次我们试着用KNN和贝叶斯来做。其实也就是调模型,也没有技术含量,所以直接上代码吧,不解释。print("knn")neigh = KNeighborsClassifier(n_neighbors=3)neigh.fit(x_train, y_train)...
2018-08-07 20:55:23 822 1
原创 利用最大熵模型来训练词向量
前面我们已经训练好词向量了,利用Word2vec将旅游评论数据转化为词向量,这篇文章主要介绍用最大熵模型训练我们上文得到的词向量。最终代码已上传到github上,传送门一、读取数据读取上一级的得到的词向量,并划分测试集合训练集,具体代码如下:print ("读取数据")df = pd.read_csv(r"E:\shixun\vvvv.csv")df.filln...
2018-08-07 20:27:25 602
原创 利用Word2vec将旅游评论数据转化为词向量
实训结束有段时间啦,我准备吧实训的所有的东西整理整理,然后安心复习考研。前面我将所有的评论把各个网站的旅游数据给扒了下来,文章链接:百度旅游、大众点评、驴妈妈、猫途鹰、携程关于评论的爬虫总结(附源码)。我们将所有扒了下来之后数据整理之后的数据截图如下:我们训练好的模型截图为(因为训练好的模型大概有500MB,无法用记事本打开,所以只能用python读取之后截图) ...
2018-08-07 19:59:04 4617 7
原创 MaxentClassifier.train()遇到错误AttributeError: 'list' object has no attribute 'items'
我在训练最大熵模型时,遇到错误x["index"] = range(len(x))xdic = x.set_index("index").T.to_dict("list")train = []for i in range(len(xdic)): train.append((xdic[i], y[i]))classifier = MaxentClassifier.train(tr...
2018-07-21 22:43:35 26180
原创 爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用
昨天在爬取大众点评的时候,刚开始还好好的,但一会就把我的ip给封啦,所以我就想给自己弄一个ip池,这样我就可以继续爬啦。网上找了一堆代码,发现好多都是python2的,它们请求使用urllib2的库,这个库在python3中合并成urllib,所以很多方法调用都出现错误,所以我还是决定用requests。一、获得代理ipdef get_ip_list(obj): ip_text = obj...
2018-07-13 22:17:35 8036 4
原创 利用xpath爬取网页
xpath应该是爬取网页最简单的方法啦,因为你需要要懂xpath,可以直接通过浏览器来获取你想要的内容。以Chrome为例,按f12检查网页,用箭头点击自己想要的地方,比如我想提取出“故宫博物院”的xpath地址,右击,点击copy,然后选择copy xpath。这样我们就获得“故宫博物院”的xpath。我们通过Chrome插件xpath helper来验证我们提取的xpath是否正确。完全正确。...
2018-07-10 22:21:19 12973 2
原创 将txt文件转化为csv文件
这两天在写爬虫,但由于前期只想将数据保存下来就行,后期直接进行预处理就行,但突然发现在批量预处理时txt文件明显比不上csv格式,所以我需要将我已经爬取的txt文件保存为csv格式。这是读取txt文件,并将每行不需要的数据给剔除掉,因为爬虫时有很多的空数据没有处理 for line in f.readlines(): # print (line) l.a...
2018-07-10 21:42:40 16798
原创 爬取链家网站的北京租房信息
本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司,发布的房地产租房信息还是不叫权威的。我们需要做的分为两步:找到各个租房页面的链接,爬取每个租房页面的数据。第一步找到每个租房页面的链接,北京地...
2018-07-03 20:07:23 1578
原创 CNN中权值共享
简单来说就是用一个卷积核来和一个图像来进行卷积,记住是同一个卷积核,不改变卷积核的值。这样可以减少权值参数。共享就是一个图片对卷积核是共同享有的。对于一个100*100像素的图像,如果我们用一个神经元来对图像进行操作,这个神经元大小就是100*100=10000,单如果我们使用10*10的卷积核,我们虽然需要计算多次,但我们需要的参数只有10*10=100个,加上一个偏向b,一共只需要101个参数...
2018-05-25 17:10:42 1870
原创 卷积相乘和矩阵相乘不一样的地方?
卷积的乘法和矩阵的乘法不一样,卷积的求和相当于加权求和,也可以称为加权叠加,矩阵相乘是将一个m×n的矩阵就是m×n个数排成m行n列的一个数阵。卷积乘法示例: 3 * 3 的像素区域R与卷积核G的卷积运算: R5(中心像素)=R1G1 +R2G2 + R3G3 + R4G4 + R5G5 + R6G6 + R7G7 + R8G8 + R9G9 ...
2018-05-25 16:25:02 14312 1
原创 CNN原理
一、卷积对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重:因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器filter)做内积(逐个元素相乘再求和)的操作就是所谓的『卷积』操作,也是卷积神经网络的名字来源。如图所示,1*1+1*0+1*1+0*0+1*1+1*0+0*1+0*0+1*1=4,所以对原图片进行卷积后的第一个值为4,后面也一样。那个乘以原图片的矩阵叫做卷积核,具体用来...
2018-05-23 17:37:39 828
原创 CSDN上传图片
一般情况下,直接复制粘贴就可以直接在文章中显示,但有时会有不成功的情况,如图所示,这个就是我复制粘贴的效果。我想选择通过CSDN的博客上面的上传按钮来上传但出现的效果是上传卡在那了,那怎么办?我才用的方法是直接把图片拷到QQ的发送框里,然后用鼠标拖到博客上你需要的位置,效果如下:拖起来的时候可能会没反应,等一会就好。...
2018-05-21 22:32:36 3253 1
原创 用谷歌的GPU跑你的代码----Colaboratory使用记录
Google不愧为大佬,给我们这些小(穷)白(鬼)开放了一个Gpu的端口,让我们的体会了一下GPU的速度。本人亲测,我的代码在我的笔记本上跑了20分钟,但上传到Colaboratory上只需要3分钟就可以给我答案。但Colaboratory并不是那么简单,我研究了一天,终于找到了一些技巧,特意记录下来。 Colaboratory是谷歌云盘的一个工具,谷歌官方给出的解释是“Colabora...
2018-05-21 22:20:37 19467 4
原创 python爬取小说并下载
本人喜欢看小说,书龄也很大了,一些主流的书看完了,现在在看一本书,叫《仙魔同修》,作者叫流浪。但有另一本书和他同名,并且名气比它大,所以网上的很多下载资源都是这本书。我想下载下载看,但在网上没有找到资源,所以我想自己动手写一个爬虫,把这本书下载下来。 我们所用的库主要有两个:BeautifulSoup和requests 。前者是从爬取下来的HTML文档中提起自己想要的内容,后者负责将HTML
2018-02-07 21:50:40 1458
原创 基于python的PCA的实现(1)--原理
网上有很多关于python基于PCA的实现,但每一个都有各自的出彩之处,本人看起来挺麻烦的,想自己写一篇文章来总结一下自己的感悟。Pca的原理:这是一个二维的数据,我们想利用PCA将它降维成一维数据。①我们首先将数据分成两个方向:U1.U2。我们可以看出U1的变化比U2 大,所以U1为主特征向量,U2为次特征向量。 ②然后想样本点进行旋转,旋转的公式是, 就是样本点
2018-01-03 19:53:10 477
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人