蜘蛛侠wjj-CSDN博客

在进行情感的分析的过程中，之前我使用了snownlp这个库进行了分词和情感分析，调用了它的一些函数实现了我需要的功能，其实它的内部算法就是基于朴素贝叶斯分类算法，因此我对朴素贝叶斯分类算法进行了学习，以下是我在学习中整理的资料：朴素贝叶斯分类算法1.朴素贝叶斯分类算法的概述贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分...

2019-12-03 19:52:23 1475

原创 python情感分析——snownlp对天气之子电影评论的情感分析

近期上映的电影——《天气之子》广受好评，我就使用一个中文的情感分析库——snownlp进行了对它的评论的分析，来看他是否正如我听到的那样好。总体的结构分为以下几点：1.对豆瓣的天气之子的评论进行爬取。2.使用snownlp对评论进行逐个情感分析评分。3.取平均值进行输出。首先介绍一个snownlp这个库SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了Tex...

2019-11-07 19:20:11 3931 4

原创数据分析——bilibili弹幕的词云

现在bilibili这个网站的视频得到了广大观看者的喜爱，因此我在学习了词云的制作后，开始了对bilibili视频弹幕的抓取和进行词云的制作GitHub：https://github.com/Spider-Man123/Bilibili-screen-word-cloud一.对bilibili指定视频的弹幕进行抓取1.提取视频id得有一个视频的url，例如：https://www.bili...

2019-10-21 17:00:54 2513 2

在这个全民直播的时代，我们基本上都观看过直播，我经常浏览的是虎牙直播平台，主要是游戏方面的，因此我使用我学的python数据分析方面的知识，制作了一个对虎牙实时三个游戏的主播和观看人数的数据分析和数据可视化，这个项目总体主要包含了这几个模块：github:https://github.com/Spider-Man123/Data-analysis-of-Tiger-teeth-live-broa...

2019-09-28 21:40:40 3286 1

原创 js逆向——破解百度翻译

针对进行了ajax加载的网页，有两种方法去爬取它当中的内容：1.使用selenium进行模拟浏览器进行选择元素，然后进行爬取，这种方法最简单，但是牺牲了速度，爬虫关键就在速度，因此针对大量的数据的话，就远远不能满足了2.使用js逆向破解，这个方法的要求高，需要你懂得chrome的调试工具和JavaScricp的语法，至少得看东js代码，但是这个方法对于爬去大量数据速度回比第一种方法快的很多今...

2019-09-24 20:50:31 2879 2

原创网易云音乐下载爬虫

在暑假期间当时一个同学让我给他爬取网易云的歌单列表和歌曲信息，他需要写一个音乐网站，在爬取结束后，我开始做一个对网易云音乐下载的爬虫，这个爬虫的效果可以对网易云绝大部分歌曲能进行下载，那些下架的vip的歌曲同样可以进行下载，我写完代码后然后写了一个界面，最后打包成exe，需要有对应的谷歌浏览器，驱动我已经在文件里放着了链接：https://pan.baidu.com/s/1l_Px2EOq4hC...

2019-09-04 20:09:56 1978 4

原创 python爬虫——多线程爬虫

在进行爬虫工作的时候，考虑到爬虫运行的速度慢，那么怎样提升爬虫的速度呢，那么就得使用多线程爬虫了，接下来我以糗事百科段子的爬取进行对多线程爬虫的概述：https://github.com/Spider-Man123/Multi-threaded-spider/tree/master一：不适用多线程爬取糗事百科1.上代码：import urllib.requestimport rehea...

2019-09-02 19:18:41 588

原创 python爬虫--西安邮电大学期末成绩查询

到了期末考完试，发现了微信以前的那个西邮在线小程序不能直接查成绩了，要查成绩需要登录官网，点击成绩查询才可以看到成绩，因此我使用python爬虫制作了一个学校网站个人成绩的爬虫，我们学校的网站确实还是有点东西的，反爬做的很好，把重要的信息的源代码都隐藏了起来，但是经过我一下午的实践，终于还是搞出来了，我的思路是：1.首先使用selenium模拟登陆2.使用规则找到查询按键对应的路径3.使用模...

2019-07-26 13:56:42 1183 1

原创 python爬虫---垃圾分类可视化界面

在之前我写了一个对垃圾进行分类的exe程序，功能齐全了但是外观看起来不怎么好看，因此我用python中的tkinter库写了一个对垃圾分类可视化的一个程序，然后打包成了一个exe。1.展示界面效果是不是界面更酷炫了一点呢，之后输入“卫生纸”进行查询，结果如下：2.上代码from selenium import webdriverfrom selenium.webdriver.chro...

2019-07-22 21:15:34 2972

原创使用selenium进行对手机知网的爬取

在留校期间，学习了selenium这个强大的python库，它的使用完全解决了对一些经过js渲染的网页的解析和爬取，它可以实现人对网页的基本操作，这样也网站上的反爬有了很有效的解决，虽然单体运行速度是慢了，但是在之后可以把它加入到Scrapy框架里面，然后实现分布式，提高爬去速度的，接下来我讲讲我是用它进行的一个对手机知网的文献标题和作者还有简介的爬取。1.在大家使用selenium之前，要先下...

2019-07-21 15:22:12 765 1

原创 python爬虫垃圾分类--pyinstaller打包exe文件

暑假来临，我申请了实验室留校，在一边完成老师给的任务以外，还想做点其他事，于是从近期很火的垃圾分类中得到了启发，准备写一个可以垃圾分类查询的爬虫，考虑到可以给其他人用，在其他人没有Python各种库的情况下，我写完后打算用pyinstaller打包成exe文件，以供大家使用。一：我首先使用了我近期在研究的爬虫中的selenium库写了一个垃圾分类的爬虫1.找到爬取网站https://lajif...

2019-07-20 13:43:42 1016 5

原创 python爬虫和可视化界面-------百度贴吧的爬取

在进行了很多次爬虫练习后，我基本上掌握了对一个网页数据的爬取，也对scrapy框架和scrapy-redis分布式这两个大杀器有了深入的了解和使用，在这之后我实验室的老师说让我基于scrapy-redis分布式的架构来做一个用户可登陆可操作的爬虫程序，简而言之就是用户能进行登录注册然后进行输入自己想要爬去的网址，得到自己想要的信息这么个过程。一：Tkinter的学习要做爬虫和图形的结合，pyt...

2019-06-24 18:09:19 1311 1

原创 python中的字符串

一：字符串共有两类共4种表示方法：1.表示单行：“请输入：” ‘c’2.表示多行：“'python王”’问题：如果需要在字符串中包含单引号或者双引号呢?①：想要在字符串中使用双引号，那么这个字符串应用单引号括起来例如：‘he(“ll”)o world’ 这个字符串使用print输出是he(“ll”)o world②：想要在字符串中使用单引号，那么这个字符串应用双引号括起来...

2019-06-17 22:15:36 149

原创分布式爬虫框架scrapy-redis部署心得

在进行分布式爬虫之前，最重要的莫过于部署框架和配置环境了，我使用的是scrapy框架和redis数据库，同时也使用了他们两个的结合体scrapy-redis这个分布式的专有架构，在它们的安装和布置过程中，确实费了我一段时间，然后对他们的了解和学习也经过了一段时间，因此我有了一定的安装和配置心得，当然其中也有借鉴网上大神的一些，如下：1.scrapy框架一个制作爬虫的强大的框架，它的安装得...

2019-06-09 20:43:33 367

原创 scrapy框架的讲解和实例

一：在我安装和配置好python中scrapy这个强大的框架后，使用这个框架首先我们需要了解它内部文件的代码意义和各个文件的作用，我首先在网上查找了它其中的各个文件的作用和每个文件所能实现的功能，根据我的查找资料总结如下：参考：https://my.oschina.net/mickelfeng/blog/7264601、Scrapy Engine（Scrapy引擎）Scrapy引擎是用来控...

2019-06-01 10:55:34 2365

原创 scrapy框架的安装心得

在我做分布式爬虫之前，我要先进行框架配置，这部分我在自我摸索的情况下确实有有点麻烦，在网上查了很多资料，最后还是配置成功，当然完成后我感觉随着步骤走下去也不是很难，因此我写出一点心得，希望可以帮到一些人：1.首先我的系统是windows的，虽然我也装了一个Linux系统，还没在它上面开始实践，以后说不定会发一点心得。2.我的python版本是python3.7，pycharm用的是2017版的...

2019-05-27 19:42:14 2732

原创记第一次爬虫

在学习爬虫的过程中，我首先进行的是对豆瓣top250的爬取，步骤可分为如下几步：第一步：抓包（url）第二步：请求url第三步：解析，提取出我需要的信息第四步:存入文件首先我对豆瓣的网页进行了分析，打开要抓取的网页，F12->F5，这样你就可以看到网页源码了，进入到Network，找到要抓取的包：然后进入到Headers,找到url接下来就是进入到pycharm中进行代码的...

2019-05-19 14:11:12 228

原创 NLP实验室的项目

经过几轮面试，进入到NLP实验室，我开始是对其中的爬虫很感兴趣，正好再进来的第一天，老师就给我分配了一个分布式爬虫的项目：分布式爬虫：B/S架构，hadoop平台可配置站点可配置正则表达式提取正文缺省正文提取配置（ML）这个任务对我这个初出茅庐的爬虫菜鸟难度确实很大，因为分布式是建立在多主机基础上，而且还要实现第一个那两个，因此我接下来会忙起来。...

2019-05-19 13:31:14 574

原创 PTA 《数据结构算法集》（中文） 7-13 统计工龄

**7-13 统计工龄** 给定公司N名员工的工龄，要求按工龄增序输出每个工龄段有多少员工。输入格式:输入首先给出正整数N（≤10^5），即员工总人数；随后给出N个整数，即每个员工的工龄，范围在[0, 50]。输出格式:按工龄的递增顺序输出每个工龄的员工个数，格式为：“工龄:人数”。每项占一...

2019-05-14 18:38:22 384

原创开始

记录我的每次C++练习，最主要的做题资源来自于PTA和我们学校的ACM系统，同时介绍我学习到的算法和心得体会。

2019-05-14 18:10:56 101

蜘蛛侠的博客

原创基于Flink的状态编程和定时器实现的客户粒度的小时范围内的消耗累积

原创 Kafka——消息队列学习总结

原创回溯算法——排列和组合问题总结

原创 101. 对称二叉树——中序遍历也能解决

原创 Mysql索引——高效获取数据的数据结构

原创 ElasticSearch总结

原创 Hadoop学习总结

原创 MyBatis学习记录

原创 python——人脸识别和图文转换

原创朴素贝叶斯分类算法