2020年04月_十点数据

09月 07月 06月 05月 04月 03月

原创基于大数据平台的互联网数据采集平台架构介绍

互联网的飞速发展将社会带入数据高度发达且公开的信息时代，数据对于企业经营、政府决策及社会动态分析等具有极其重要的作用，而如何大规模、快速采集数据成为技术焦点。网络爬虫是按照一定规则自动游走爬取互联网文本网页的程序或者脚本。文本数据大多嵌套于网页程序代码中。数据采集的效率直接决定数据的有效及时性，数据的快速采集成为重中之重。基于大数据平台的的互联网数据采集,可以有效适用于海量数据采集场景,为...

2020-04-06 18:53:16 1277 1

原创一文带你了解Elasticsearch与Solr优缺点

Elasticsearch简介Elasticsearch是一个建立在 Apache Lucene™ 基础上的实时的分布式搜索和分析引擎，是基于Lucene实现的、当今最先进，最高效的全功能开源搜索引擎框架。Elasticsearch使用Lucene作为内部索引引擎，而实际使用中，我们只需要使用统一开发好的API即可，而不需要理解其背后复杂的Lucene工作原理。Elasticsear...

2020-04-28 00:29:26 740 1

原创一文带你了解solr部署全过程(word免费送)

一、环境准备软件版本：Tomcat 版本：7.0.56JDK 版本：1.7.0_71SOLR 版本：4.8.1软件包：apache-tomcat-7.0.56.tar.gz,jdk1.7.0_71.tar.gzsolr-4.8.1.tgz机器资源：192.168.102.51（master）192.168.102.52（slave）192.168....

2020-04-26 11:52:38 259 1

原创 JavaFx系列之WebView插件中JavaScript和Java相互调用，并传递值

在编写JavaFx工作流的过程中，由于工作流用的是jquery实现，其中有一些数据，需要通过JavaScript传递到后台Java对象，并保存。大概原则是：首先在Java中创建一个对象，把该对象设置到网页去。而对于另一个方向，JavaScript创建一个对象并从网页中提取出来。下面用代码演示。首先是Java的代码package sample;import javafx.applicat...

2020-04-22 18:14:56 2263 3

原创 JavaFx中WebView插件加载的HTML中JavaScript和Java通信

2020-04-22 18:11:53 1405

原创一套价值十万的微信公众号采集解决方案

1 整体概述1.1 编写目的本文主要用于描述微信采集过程中，各流程节点的解决方案。详细介绍了采集架构、手机号购买注意事项、微信注册注意事项、微信号养号注意事项、公众号采集方式，以及采集过程中遇到的问题等。1.2 整体架构微信数据采集主要分为四个阶段：一、采集准备阶段：手机、手机号、XPosed插件、手机支架、HUB集线器、智能插座等；二、公众号处理阶段：公众号收集、公众号...

2020-04-22 17:54:27 937 1

原创 JavaFX中给对象添加ContextMenu菜单的通用方法

在进行JavaFX进行桌面程序开发时，难免会遇到添加右键菜单的情况，今天就介绍一种通用的添加右键菜单的方式。JavaFX中右键菜单均是通过ContextMenu来实现，首先定义GlobalMenu，继承ContextMenu，显示这些功能选项。代码日下所示：package org.crawler.ui.layout.left;import javafx.scene.control.C...

2020-04-18 22:25:52 1332

原创爬虫工程师，如何高效的支持数据分析人员的工作？

数据分析是以统计分析方法为基础，对采集来的大量数据进行分析，并将其加以汇总、理解和消化，以提取有用信息和形成结论，最大化地开发出数据的功能，发挥数据的作用。所以，数据采集，是科学地进行数据分析的基础。其采集数据的准确性，直接决定了数据分析输出内容的价值。那么，数据分析中的数据采集该如何做呢？它主要包括四部分：需求调研、明确采集范围确定、明确抽样方案、明确数据采集方法，数据清洗...

2020-04-17 12:22:56 223 1

原创网站SEO优化系列之外链篇

外部链接概念比如，A网站给B网站做个链接，那么A网站就是B网站的外部链接，或者反向链接。外部链接越多越好，当然也得是优质的外部链接才好。否则网站也有可能会因而被降权，得不偿失。外部链接的作用外部链接质量高、数量多，就表示这个网站很受用户欢迎。那么，搜索引擎也就越喜欢这个网站，优先给予排名。比如，有十个人说你好，可能你真的好，那么如果有一万个人推荐你，说你好，...

2020-04-17 12:20:58 441

原创网站SEO优化系列之基础篇

去年基于MBlog进行二次开发，整了个自己的博客（二猫的博客）。虽然写了几十篇文章，可是百度搜索收录始终都是二十几篇。最近花了点时间，找了几个视频学习了一下。根据网站SEO的核心要素，对博客后台、前端显示等均进行了优化，收录的效果确实好了很多，现在收录量已经到。百度站在后台统计的每日索引量如下所示：在百度搜索中，通过site搜索可以看到有184条信息，但是百度站长后台统计是16...

2020-04-14 14:06:54 625 1

原创一文带你了解，数据采集中各部分要点及注意事项

先前简单的介绍了一下《基于大数据平台的互联网数据采集平台基本架构》，今天主要介绍一下采集的各个环节中，应该如何处理，应该注意哪些方面。废话不多说了，正文开始.......第一：信源系统其实就是采集任务管理系统，我们叫信源管理系统。主要包括：1.任务模块：网站、栏目、搜索引擎、关键词、模板、公众号、微博博主等。2.资源管理模块：服务器、项目、索引等；3.监控...

2020-04-11 10:50:25 3237 1

转载基于java的鼠标键盘模拟操作常用方法汇总

最近在研究基于模拟器的，根据手机号微信自动添加好友的工具，其中涉及到了鼠标模拟点击、字符串输入等方法。同时，针对采集中可能需要截取验证码图片，整理了截图的功能。具体代码如下所示：package org.crawler;import java.awt.Toolkit;import java.awt.datatransfer.Clipboard;import java.awt.da...

2020-04-09 02:07:05 712 2

转载 Python，开发爬虫的不二选择

互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前。如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）。爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序。如今，人类社会已经进入了大数据时代...

2020-04-07 00:36:14 419

转载教你一种1分钟，下载1万个网页的方法，你学吗？

一：模块介绍Pycurl是一个用C语言编写的libcurl Python实现，功能非常强大，支持操作协议有FTP，HTTP，HTTPS，TELNET等。与urllib相比，Pycurl的速度要快很多。二：安装大家可以去官网下载与本地Python一直的whl或exe包。也可以使用下面的命令行直接安装。pip install pycurl三：主要方法...

2020-04-03 01:36:02 253 1