webmagic爬虫
互联网叫兽
现在,青春是用来奋斗的;将来,青春是用来回忆的。
展开
-
webmagic爬虫自学(一)介绍一些关于爬虫的知识
前言做项目需要爬取一些数据,不想用Python,就尝试了下webmagic这个爬虫框架,总的来说还是比较简单的。webmagic是一个简单灵活的Java爬虫框架,如果你熟悉Java而且不想用Python写爬虫,那么webmagic是一个不错的选择.一、WebMagic官方资源项目作者github首页:https://github.com/code4craft项目github地址:http...原创 2019-04-01 09:32:49 · 2653 阅读 · 0 评论 -
webmagic爬虫自学(五)网络爬虫模拟登陆[策略一:获取cookie]
一、项目结构在使用爬虫的过程中,有的网站的信息必须是要登录后才能查看的,比如CSDN网站中管理博客,必须要登陆后才会显示。如果我想要爬取到这些信息,肯定是要进行登陆才可以的,这里就要获取到cookie的信息。进入CSDN博客,登陆后,F12打开DevTools页面,查看到cookie信息最简单的做法是将cookie信息保存下来。二、获取cookie模拟登陆package dem...原创 2019-04-15 22:29:34 · 6050 阅读 · 0 评论 -
webmagic爬虫自学(六)网络爬虫模拟登陆[策略二:通过Selenium模拟表单提交]
一、搭建webmagic项目环境部分代码,请参考https://blog.csdn.net/qq_29914837/article/details/89309298二、网络爬虫模拟登陆[策略二:通过Selenium模拟表单提交]三、搭建Selenium自动化环境1、首先需要下载好对应自己chrome对应的chromedriver我们在地址栏中输入chrome://version可以查看...原创 2019-04-15 22:51:10 · 5066 阅读 · 9 评论 -
webmagic爬虫自学(二)遇到问题收集
### Error updating database. Cause: com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'content' at row 1### The error may involve demo.blog.csdn.net.dao.CsdnDAO.add-Inlin...原创 2019-04-15 11:15:48 · 1612 阅读 · 2 评论 -
webmagic爬虫自学(三)爬取CSDN【列表+详情的基本页面组合】的页面,使用基于注解的方式
1原创 2019-04-15 14:26:02 · 3267 阅读 · 0 评论 -
webmagic爬虫自学(四)爬取CSDN【列表+详情的基本页面组合】的页面
一、搭建webmagic项目环境部分代码,请参考https://blog.csdn.net/qq_29914837/article/details/89309298二、爬取CSDN【列表+详情的基本页面组合】的页面package demo.blog.csdn.net2.model;import java.util.Date;import java.util.List;import ...原创 2019-04-15 16:15:01 · 3217 阅读 · 3 评论