自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

转载 OmniMarkupPreviewer的实时预览无法使用问题的解决

sublime 安装了Markup 插件,写文档很方便使用过程中发现导出HTML 文档正常,但是浏览器实时预览不行打开调试模式:Ctrl+`打开控制台,查看日志信息,下面是我的日志信息。<code><code>OmniMarkupPreviewer: [IN...

2018-05-28 20:34:00 452

转载 公积金采集管理系统

公积金采集管理界面 转载于:https://my.oschina.net/PagodaTree/blog/1501260

2017-08-03 11:23:00 280

转载 探索网页监测

今天思考了jsoup的网页监控可行性,思路是jsoup 对比elements 的变动, 分析源码element的对比 使用了object equal (没有重写) 对比的是内存地址,HashCode 因此无法通过elements 的对比来实现网页监测, 启发式设计:对于网页埋点,选...

2017-06-15 19:45:00 162

转载 分布式爬虫共享cookies 方案分析

在采集需要登录的网站时,需要httpclient 保持cookies 单节点情况下可以设计cookie 缓存在内存中,每次使用从缓存中获取,分布式爬虫每次采集请求可能分发到不同的机器上,便会导致请求失败 根据缓存启发 可以把本地cookie 缓存改写成 缓存服务,多台机器从缓存...

2017-06-06 10:20:00 164

转载 unison + inotify-tools 配置服务器文件双向同步

分布式场景下会遇到文件共享的问题,便捷的解决方案是选用第三方的文件服务,如果遇到国内外同步需要自己搭建系统,unison 和 intify 组合可以快速实现 小文件的时时共享 节点A HK 节点B NA 两个节点均为ubuntu 系统 配置两个节点ssh 免密码登录 ...

2017-06-06 10:00:00 149

转载 dubbo 服务启动分析

dubbo 长用的启动方式是用内置的 java com.alibaba.dubbo.container.Main 启动成功之后会加载spring 配置文件 打印注册日志,最后显示注册成功。 2017-05-23 14:52:46 [ main:428 ] - [ DEBUG ]...

2017-05-23 15:21:00 190

转载 spring 项目 重构后无法扫描文件

近日重构了一个爬虫项目,整理之后发现源码文件没有被扫描到 没有S 标识 因为重构用了 intellij idea ,首先eclipse检查配置文件 确认无误 打开配置文件:发现报错,但没有提示报错信息 重新配置 Namespaces 后 配置文...

2017-05-22 16:00:00 75

转载 maven的pom报plugins错误的解决

maven 项目配置文件报错: ailuretotransferorg.apache.maven.plugins:maven-surefire-plugin:pom:2.18.1fromhttps://repo.maven.apache.org/maven2wascach...

2017-04-18 10:26:00 235

转载 从零开始编译Tomcat8 源码

前期准备安装配置ant(默认配置了JDK)地址:http://ant.apache.org/bindownload.cgi下载Tomcat8 源码可能遇到的问题1:运行编译命令ant ide-eclipse 时报错:jdk证书问题 生成jssecacer...

2017-03-14 15:07:00 75

转载 Windows10 安装配置maven

之前用eclipse 自带的maven 偶尔出现依赖错误改用系统安装配置maven1. - 下载安装包Maven3.0以上版本 下载地址:http://maven.apache.org/download.cgi(默认系统已经安装配置好jdk)2. 解压到安装目录配置环境变量:...

2017-03-07 13:39:00 74

转载 我的作品

个性化IT资讯推荐系统技术应用:爬虫+数据挖掘+大数据+个性化推荐摘客 转载于:https://my.oschina.net/PagodaTree/blog/838969...

2017-02-15 09:32:00 78

转载 C# 控制台程序引用System.Windows.Forms

好久没有写C# 程序了,今天用C# 控制台写一个简单的网络程序,拿到包含js网页的源码,C#可以调用webkit亦可以使用Webbrowser控制台程序引用System.Windows.Forms;需要在解决方案中手动添加引用命名空间"System”中不存在类型或命名空间名称"Windo...

2016-11-29 17:26:00 7291

转载 linux 查看程序占用io

方法一:iotop 安装命令 yum -y install top 查看io 命令 iotop 帮助命令iotop -h 方法二: block_dump方法 首先,关闭syslog服务,然后开启block_dump,最后正则表达式提取dmes...

2016-10-20 16:15:00 121

转载 lombok 的安装

lombok 的安装打开lombok 所在的文件目录运行java 命令 java -jar lombok安装完成之后eclipse 目录:之后重启eclipse 重现编译项目即可参考资料:http://www.blogjava.net/fancydeepin/archive/2...

2016-10-20 10:57:00 64

转载 文件传输

Java 版本Client 传文件到服务器 使用httpclient 代码: public class BytePost { /** * @param args * @throws IOException * @throws ClientProtocolE...

2016-07-22 10:32:00 86

转载 排名前50的开源爬虫

某英文站点整理 名字 开发语言 平台 Heritrix Java Linux Nutch Java Cross-platform Scrapy...

2016-06-30 13:20:00 126

转载 pip install 命令报错

D:\Python install\pip-8.1.1>pip install -U seleniumCollecting seleniumException:Traceback (most recent call last): File "D:\Python27\li...

2016-06-15 14:43:00 245

转载 PyCharm 使用SVN 管理代码

一、上传代码 配置svn 上传代码 二、下载代码 可能遇到的错误 Cannot load supported formats: Cannot run program "svn": CreateProcess error=2 这...

2016-06-14 10:27:00 521

转载 Spring bean Scope

Spring 定义了多种作用域,可以基于这些作用域创见bean,包括: 单例(Singleton) : 整个应用中,只创建一个bean 实例【默认】 原型(Prototype): 每次注入或者通过spring 上下文获取的时候,会创建一个新的bean 实例 会话(Session) : ...

2016-05-30 16:27:00 77

转载 Python 识别文本编码

>>> import chardet>>> f = open('songs.txt','r')>>> result = chardet.detect(f.read())>>> result{'confidence'...

2016-05-17 19:08:00 263

转载 Python 网页解析之Beautifulsoup

以前都是用Jsoup 做网页解析,最近用Django+Python 设计实现一套信息采集系统,解析器选择了和jsoup 相近的 beautifulsoup 用下来两个解析器除了名字相近 都支持 css selecter 解决问题思路完全不同,再加上java 和Python 的语言差别 ...

2016-04-27 20:33:00 110

转载 Mysql 表名大小写敏感

默认情况下,mysql在创建数据库对象时,是区分大小写的。故与microsoft之间进行移植时,要特别注意是否存在问题。在mysql中大小写与参数lower_case_table_names有很大关系。以下为官方解释:If set to 0, table names are stored ...

2016-03-29 12:00:00 81

转载 Nginx 配置实践

nginx 一般用作请求转发,用作服务器集群的负载均衡 典型的高并发集群是 nginx+tomcat(多个) nginx可以高效处理对静态文件的请求,tomcat 负责动态请求 配置范例: #usernobody;worker_processes1;error_log...

2016-03-29 11:59:00 85

转载 安装Nginx

服务器环境准备检查服务器是否安装了C++编译器检查服务器是否安装SSL#yuminstallopensslopenssl-develyuminstall-ygccgcc-c+ 安装pcre下载最新版本pcrehttp://www.pcre.org/解压 在根目录运行 检...

2016-03-16 13:49:00 60

转载 一句话总结java23种设计模式

设计模式的六大原则 1、开闭原则(Open Close Principle):对扩展开放对修改关闭 2、里氏代换原则(Liskov Substitution Principle):父类出现的地方,子类也可出现 3、依赖倒转原则(Dependence Inversion Principle...

2016-03-15 11:45:00 48

转载 构建Mysql连接池

直接看代码: 自己写mysql 连接池: packagecom.hta.webmagic.pipeline;importjava.sql.Connection;importjava.sql.DatabaseMetaData;importjava.sql.Driver;im...

2016-03-14 17:57:00 60

转载 Java 中null 和 “”区别

NULL 代表一个空对象,不是java中字符串,java util中有些方法返回值就是null getRef publicStringgetRef() 获取此 URL 的锚点(也称为“引用”)。 返回: 此 URL 的锚点(也称为“引用”),如果...

2016-03-09 13:15:00 62

转载 Java 爬虫工程师技能列表

1,java2,熟悉js,ajax3,网页去重,找到网站特点4,分布式5,多线程6,一种关系型数据库mysql/oraclelserver7,正则表达式、cssselector,xpath8,DNScache9,TCP/IP/Http协议tp2.010,web登录协议 10,SSO...

2016-02-27 20:08:00 61

转载 JVM 监控--jvisualvm

jvisualvm是jdk自带的监测工具,在windows命令行中便可启启动命令: MicrosoftWindows[Version6.2.9200](c)2012MicrosoftCorporation.Allrightsreserved.C:\Users...

2016-02-25 14:51:00 303

转载 缓存-memcache

memcache是c语言编写的内存缓存,常见同php协同应用,支持多种语言。对于java web有三种常用的client Memcached客户端程序 Memcached的java客户端已经存在三种了: 官方提供的基于传统阻塞io由Greg Whalin维护的客户端 Dusti...

2016-02-18 15:52:00 82

转载 依赖注入和控制反转

IoC——Inversion of Control 控制反转DI——Dependency Injection 依赖注入 要想理解上面两个概念,就必须搞清楚如下的问题: 参与者都有谁? 依赖:谁依赖于谁?为什么需要依赖? 注入:谁注入于谁?到底注入什么?...

2016-01-28 22:01:00 47

转载 eclipse 快捷键大全

Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位...

2016-01-23 00:06:00 52

转载 java InputStream 复制

tika 是一个解析文档的工具箱,可以自己判别文档种类,再用合适的jar包 解析对应的文档 今天遇到一个需求,把网络上的文件内容解析成数据。 写爬虫,解析页面,对页面进行处理,解析出文件的url 接着就是文件下载到本地,对照tika 的demo 解析数据 可是文件下载...

2016-01-19 23:04:00 111

转载 爬虫面试遇到外行面试官

爬虫岗位很少,我总共也就面过五六家,其中某金融互联网公司技术最好,虽然他们的爬虫人员也是后来转的 问题一:如果连接断了怎么办? 什么连接呢,猜是tcp 连接吧,tcp连接不是时时联通的,只有http或者其他应用协议需要的时候才会有连接,当然也有隧道等特殊情况 实际工...

2016-01-18 21:27:00 90

转载 各大网站的robots.txt

百度家: User-agent: BaiduspiderDisallow: /baiduDisallow: /s?Disallow: /ulink?Disallow: /link?User-agent: GooglebotDisallow: /baiduDisall...

2016-01-16 15:11:00 531

转载 从一句话中提取地点信息

采用字符串匹配的方法提取句子中包含的地点信息(省市) 直接看代码: privatestaticfinalString[][]LOCATION={{"上海","浦东"},{"北京","朝阳"},{"浙江","杭州","宁波"},{"天津"}, ...

2016-01-07 16:00:00 1396

转载 你们是不是很缺大数据工程师?

我眼中的大数据现状!其实个人在大数据在大数据这个坑中,细细算来时间也有3years了,从一开始做大数据中心平台开发构建,到现在关注的数据上层应用挖掘。所以,基本上从数据收集- 数据处理(离线实时,并且还勉强算是国内实时处理早期的实践者)- 数据上层应用挖掘,这个链路都走了一遍。并且加上手里...

2015-12-22 14:42:00 46

转载 全国爬虫岗位汇总

不定期更新,技术练习顺手采集数据。 爬虫岗位不多,希望大家不要以爬虫为主业,招聘待遇和实际有差距 爬虫交流群:177655321 闪银奇异 要求 经验3-5年 / 大专 待遇...

2015-12-19 14:51:00 371

转载 Kafka 报错分析

1.Producer connection to localhost:9092 unsuccessful 远程连接kafka发送消息成功的话是这样: 15-12-02 17:46:57,581 INFO kafka.producer.SyncProducer(?:?) ## C...

2015-12-04 14:58:00 304

转载 Eclipse SVN 插件使用

以前项目都是自己一个人开发,很少用SVN 记录一下遇到的代码同步问题 J2EE 视图中误删某个文件夹或者文件。邮件爱你选择项目 -->team 选择代码同步 出现以下视图: 选择需要的文件夹或者文件 根据需要进行操作。 建议大...

2015-11-30 13:48:00 48

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除