数据采集
十点数据
个人博客:http://www.blog2019.net
本博客主要用于介绍一些分布式采集开发、自动化运维/部署、Redis缓存、ES分布式索引、数据分析等知识
展开
-
Python爬虫中requests下载插件常用方法汇总(一)
最近在对先前写的爬虫框架进行升级,今天把下载部分使用的插件更新了一下,把原来的urllib.request换成了requests插件。 花了几个小时仔细的研究了一下requests的参数,目前初步整理一个工具类,代码如下:import requestsfrom PIL import Imagefrom io import BytesIOfrom com.fy.utils.http.Us...原创 2020-05-07 10:06:39 · 1260 阅读 · 0 评论 -
一文带你了解Elasticsearch与Solr优缺点
Elasticsearch简介Elasticsearch是一个建立在 Apache Lucene™ 基础上的实时的分布式搜索和分析引擎,是基于Lucene实现的、当今最先进,最高效的全功能开源搜索引擎框架。Elasticsearch使用Lucene作为内部索引引擎,而实际使用中,我们只需要使用统一开发好的API即可,而不需要理解其背后复杂的Lucene工作原理。Elasticsear...原创 2020-04-28 00:29:26 · 792 阅读 · 1 评论 -
一文带你了解solr部署全过程(word免费送)
一、环境准备软件版本:Tomcat 版本:7.0.56JDK 版本:1.7.0_71SOLR 版本:4.8.1软件包:apache-tomcat-7.0.56.tar.gz,jdk1.7.0_71.tar.gzsolr-4.8.1.tgz机器资源:192.168.102.51(master)192.168.102.52(slave)192.168....原创 2020-04-26 11:52:38 · 300 阅读 · 1 评论 -
JavaFx系列之WebView插件中JavaScript和Java相互调用,并传递值
在编写JavaFx工作流的过程中,由于工作流用的是jquery实现,其中有一些数据,需要通过JavaScript传递到后台Java对象,并保存。 大概原则是:首先在Java中创建一个对象,把该对象设置到网页去。而对于另一个方向,JavaScript创建一个对象并从网页中提取出来。下面用代码演示。首先是Java的代码package sample;import javafx.applicat...原创 2020-04-22 18:14:56 · 2472 阅读 · 3 评论 -
JavaFx中WebView插件加载的HTML中JavaScript和Java通信
在编写JavaFx工作流的过程中,由于工作流用的是jquery实现,其中有一些数据,需要通过JavaScript传递到后台Java对象,并保存。 大概原则是:首先在Java中创建一个对象,把该对象设置到网页去。而对于另一个方向,JavaScript创建一个对象并从网页中提取出来。下面用代码演示。首先是Java的代码package sample;import javafx.applicat...原创 2020-04-22 18:11:53 · 1525 阅读 · 0 评论 -
JavaFX中给对象添加ContextMenu菜单的通用方法
在进行JavaFX进行桌面程序开发时,难免会遇到添加右键菜单的情况,今天就介绍一种通用的添加右键菜单的方式。JavaFX中右键菜单均是通过ContextMenu来实现,首先定义GlobalMenu,继承ContextMenu,显示这些功能选项。代码日下所示:package org.crawler.ui.layout.left;import javafx.scene.control.C...原创 2020-04-18 22:25:52 · 1390 阅读 · 0 评论 -
爬虫工程师,如何高效的支持数据分析人员的工作?
数据分析是以统计分析方法为基础,对采集来的大量数据进行分析,并将其加以汇总、理解和消化,以提取有用信息和形成结论,最大化地开发出数据的功能,发挥数据的作用。所以,数据采集,是科学地进行数据分析的基础。其采集数据的准确性,直接决定了数据分析输出内容的价值。那么,数据分析中的数据采集该如何做呢?它主要包括四部分:需求调研、明确采集范围确定、明确抽样方案、明确数据采集方法,数据清洗...原创 2020-04-17 12:22:56 · 252 阅读 · 1 评论 -
网站SEO优化系列之外链篇
外部链接概念比如,A网站给B网站做个链接,那么A网站就是B网站的外部链接,或者反向链接。外部链接越多越好,当然也得是优质的外部链接才好。否则网站也有可能会因而被降权,得不偿失。外部链接的作用外部链接质量高、数量多,就表示这个网站很受用户欢迎。那么,搜索引擎也就越喜欢这个网站,优先给予排名。比如,有十个人说你好,可能你真的好,那么如果有一万个人推荐你,说你好,...原创 2020-04-17 12:20:58 · 463 阅读 · 0 评论 -
一文带你了解,数据采集中各部分要点及注意事项
先前简单的介绍了一下《基于大数据平台的互联网数据采集平台基本架构》,今天主要介绍一下采集的各个环节中,应该如何处理,应该注意哪些方面。废话不多说了,正文开始.......第一:信源系统其实就是采集任务管理系统,我们叫信源管理系统。主要包括:1.任务模块:网站、栏目、搜索引擎、关键词、模板、公众号、微博博主等。2.资源管理模块:服务器、项目、索引等;3.监控...原创 2020-04-11 10:50:25 · 3493 阅读 · 1 评论 -
基于java的鼠标键盘模拟操作常用方法汇总
最近在研究基于模拟器的,根据手机号微信自动添加好友的工具,其中涉及到了鼠标模拟点击、字符串输入等方法。同时,针对采集中可能需要截取验证码图片,整理了截图的功能。具体代码如下所示:package org.crawler;import java.awt.Toolkit;import java.awt.datatransfer.Clipboard;import java.awt.da...转载 2020-04-09 02:07:05 · 748 阅读 · 2 评论 -
Python,开发爬虫的不二选择
互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前。如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)。爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。如今,人类社会已经进入了大数据时代...转载 2020-04-07 00:36:14 · 446 阅读 · 0 评论 -
教你一种1分钟,下载1万个网页的方法,你学吗?
一:模块介绍Pycurl是一个用C语言编写的libcurl Python实现,功能非常强大,支持操作协议有FTP,HTTP,HTTPS,TELNET等。与urllib相比,Pycurl的速度要快很多。二:安装大家可以去官网下载与本地Python一直的whl或exe包。也可以使用下面的命令行直接安装。pip install pycurl三:主要方法...转载 2020-04-03 01:36:02 · 297 阅读 · 1 评论 -
史上最快、最笨的公众号文章[阅读数、在看数]采集,哈哈
先前写过一篇《Python爬虫实践:如何快速、高效的爬取微信公众号阅读在看》的文章,里面介绍了四种公众号阅读数、在看数的采集方法,分别是:第一种:使用第三方的平台获取 第二种方法:使用PC端模拟点击; 第三种:使用第三方工具; 第四种:基于微信公众号平台的方式;今天抽空把第二种方式实现了,把代码贴出来供大家参考。其中分为两个类,一个是模拟点击等操作的公共类;一个是具体执行模拟...原创 2020-03-26 12:10:05 · 1700 阅读 · 1 评论