进击的crawler-CSDN博客

原创踩坑日记-记录那些年踩过的坑

大数据开发篇：一，组件搭建中scala在IDEA里面不能添加插件的问题解决方式：解决方式：删除C盘里面的IDEA的目录，重启IDEA，在IDEA里面选择scala插件下载搭建zk环境时报错：拒绝连接解决方式：1、检查其他机器，发现JDK版本不一样，版本统一后问题解决二，开发中python开发篇：一， web开发中二，爬虫开发中中文数据存储mysql中报错这里存储...

2020-04-18 10:50:43 374

原创爬虫-基于request模块bs4解析爬取天气网实现可视化

python

2020-04-18 11:24:43 281

原创爬虫-基于selenium模块正则解析实现对斗鱼直播数据抓取并持久化存储

本次通过selenium插件来实现爬虫，selenium个人感觉还是很不错的，官方文档，其实看文档还是很有用的，这个习惯可以有首先老规矩分析目标网站目标网站：斗鱼直播 https://www.douyu.com/directory/all目标数据：直播间名称，直播间类型，主播名称，房间人数（这个不清楚到底是个啥，反正数值很大）1，首先做个架子2，分析目标网站打开开发者模式之后，点击...

2020-04-15 00:34:04 765

原创爬虫-基于urllib模块通过正则解析爬取猫眼电影

首先确定目标目标网站：猫眼电影目标数据：电影名称，演员，上映日期首先分析网页结构，打开猫眼电影以猫眼top100的第二页为目标，爬取想要的数据，查看网页结构找到目标字段对应的标签电影名的标签 = title演员的标签 = star上映时间的标签 = releasetime准备代码前面都是固定的格式，要准备目标url地址和headers信息将整页数据爬取下来后，通过正则...

2020-04-02 22:45:23 707

原创爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

首先，我们要确定要爬取的对象，然后确定我们需要的数据，要有针对性的去分析，打开豆瓣网查看在这里我们可以看到即将上映的电影不多呀，先试试这个吧…右键检查，打开开发者模式此时点击NETWORK选项是没有数据的，我们需要F5刷新一下就可以看到数据了我们找到深圳，然后可以看到我们请求的URL地址是吧，继续往下看，找到我们的request headers信息referer、cookies...

2020-04-02 11:13:07 671

原创 Django框架

django框架配置安装djangopip install django==1.8.2

2020-03-29 12:59:35 113

原创虚拟空间的安装配置

虚拟空间的安装配置以我自己为例，我使用的是uabntu18.04版本为了使项目之间的软件版本不冲突，我们才创建虚拟空间首先 sudo pip install virtualenv然后安装虚拟环境拓展包sudo pip install virtualenvwrapper在修改用户目录下的 .bashrc文件在文件中添加一下内容export WORKON_HOME=$HOME/.bas...

2020-03-29 12:52:23 538

luohuatingyu112的博客