![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java爬虫
study_azhuo
这个作者很懒,什么都没留下…
展开
-
爬虫-ElasticSearch
Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分。 对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的分词器。(也就是说不同的分词器分词的规则是不同的!) 在创建索引时会用到分词器,在搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果。 ...转载 2020-11-13 15:03:10 · 245 阅读 · 0 评论 -
webmagic-爬取51招聘信息
点击资料或前往github查看源码WebMagic 使用springboot开启定时任务,使用自定义pipeline将数据存储到数据库,根据传入的url获取页面,和jquery相似的选择器方法解析页面存入自己想得到的信息 ps:爬取前查看得到的html,会与网页的不一样 package com.example.demo.task; import com.example.demo.pojo.JobInfo; import com.example.demo.utils.MathSalary; import原创 2020-11-10 22:18:08 · 267 阅读 · 0 评论 -
带参数传入url-java爬虫
Get请求带参数 public class HttpGetParamTest { public static void main(String[] args) throws Exception { // 创建HttpClient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); // 设置请求地址是: http://yun.itheima.com/search?keys=原创 2020-11-05 01:02:48 · 235 阅读 · 0 评论 -
入门爬虫工具类编写
package com.example.demo.utils; import org.apache.http.client.config.RequestConfig; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import原创 2020-11-05 00:49:52 · 121 阅读 · 0 评论