微博爬虫“免登录”技巧详解及 Java 实现(业余草的博客)

一、微博一定要登录才能抓取?目前,对于微博的爬虫,大部分是基于模拟微博账号登录的方式实现的,这种方式如果真的运营起来,实际上是一件非常头疼痛苦的事,你可能每天都过得提心吊胆,生怕新浪爸爸把你的那些账号给封了,而且现在随着实名制的落地,获得账号的渠道估计也会变得越来越少。但是日子还得继续,在如此艰难的条件下,为了生存爬虫们必须寻求进化。好在上帝关门的同时会随手开窗,微博在其他诸如头条,一点等这类新媒...
阅读(377) 评论(0)

业余草谈SessionFactory中的Session和HttpSession的区别

首先,讲一个悲伤的故事。。。有一天,一个以为自己javaEE很叼的程序员,在经历了好久不写java代码的情况下,去参加阿里巴巴的java面试,然后,在被问到一个很简单的问题的时候,结果没有回答好。那么接下来先说说这个问题吧。。。问:hibernate的sessionfactory是干嘛的?session又是干嘛的呢?那么,你会吗?可以讲清楚么?如果答案是会,可以,那么你就不用往下看了。。。。如果会...
阅读(201) 评论(0)

免费的Lucene 原理与代码分析完整版下载

Lucene是一个基于Java的高效的全文检索库。那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据。很容易理解,结构化数据是有固定格式和结构的或者有限长度的数据,比如数据库,元数据等。非结构化数据则是不定长或者没有固定格式的数据,如图片,邮件,文档等。还有一种较少的分类为半结构化数据,如XML,HTML等,在一定程度上我们可以将其按照结构化...
阅读(537) 评论(0)

阿里JAVA开发面试常问问题总结

我的博客:CODE大全:www.codedq.net;业余草:www.xttblog.com;爱分享:www.ndislwf.com或ifxvn.com。线程与进程进程是可并发执行的程序在某个数据集合上的一次计算活动,也是操作系统进行资源分配和调度的基本单位。线程是操作系统进程中能够并发执行的实体,是处理器调度和分派的基本单位。每个进程内可包含多个可并发执行的线程。线程自己基本不拥有系统资源,只拥...
阅读(1097) 评论(0)

CODE大全告诉你java是否开始没落了

CODE大全告诉你java是否开始没落了!22 岁,对于一个技术人来说可谓正当壮年。但对于一门编程语言来说,情况可能又有不同。各类编程语言横空出世,纷战不休,然而 TIOBE 的语言排行榜上,Java 却露出了明显的颓势。这个老牌的语言,未来会是怎样?1.写在前面从 1995 年第一个版本发布到现在,Java 语言已经在跌宕起伏中走过了 22 年,最新的 Java 版本也已经迭代到 Java 9。...
阅读(1570) 评论(4)

AI人工智能专业词汇集

作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客、论文、专家观点等内容上已经积累了超过两年多的经验。期间,从无到有,机器之心的编译团队一直在积累专业词汇。虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步、一直在积累、一直在提高自己的专业性。两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典。而我们也从机器之心读者留言中发现...
阅读(802) 评论(0)

Jsoup教程,jsoup开发指南,jsoup中文使用手册,jsoup中文文档

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 jsoup的主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、取出数据;可操作HTML元素、属性、文本;jsoup是基于MIT协议发布的,可放心使用于商业项目。本文将分析...
阅读(935) 评论(0)

Nginx负载均衡

在大型网站中,负载均衡是有想当必要的。尤其是在同一时间访问量比较大的大型网站,例如网上商城,新闻等CMS系统,为了减轻单个服务器的处理压力,我们引进了负载均衡这一个概念,将一个服务器的压力分摊到几个服务器上,一方面减轻了宕机的几率,另一方面也使得宕机后还要其他服务器可以继续稳定运行,提高了系统的健壮性。这篇文章将要介绍的主要内容如下:配置三台服务器分别在三台服务器上部署同样的服务代码使用Nginx...
阅读(837) 评论(1)

Java虚拟机:JVM内存分代策略

Java虚拟机根据对象存活的周期不同,把堆内存划分为几块,一般分为新生代、老年代和永久代(对HotSpot虚拟机而言),这就是JVM的内存分代策略。...
阅读(575) 评论(1)

我喜欢的技术性网站

技能学习网站!...
阅读(1694) 评论(5)

java 线程锁对象锁的理解

...
阅读(956) 评论(0)

Shiro 教程

Shiro是apache提供的强大而灵活的开源安全框架,它主要用来处理身份认证,授权,企业会话管理和加密。shiro功能:用户验证、用户执行访问权限控制、在任何环境下使用session API,如cs程序。可以使用多数据源如同时使用oracle、mysql。单点登录(sso)支持。remember me服务。我在业余草网站上整理过相关的Shiro教程。但是由于业余草网站的权重太低,导致搜索不到我的...
阅读(1193) 评论(0)

使用java开发阿里云OSS开放云存储服务

购买了阿里云后,我们发现一般ECS的存储空间都比较小,当然我们可以动态的扩展一些存储空间。但是作为开发者,我们在日常使用中需要一些更大的灵活性,因此就需要我们自己对OSS存储有一些自己的扩展。今天就为大家分享一下如何使用java来对接阿里云的OSS存储服务。OSS产品概述阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存...
阅读(1422) 评论(0)

你意想不到的的编程问题

大千世界无奇不有!在编程的世界也是!虽然我更多的是整理需求,但是偶尔也会遇到一些不能用常见思维解释的问题! 我们一起来看看这些奇妙的设计吧!...
阅读(7141) 评论(12)

JAVA_OPTS

JAVA_OPTS ,顾名思义,是用来设置JVM相关运行参数的变量。JVM:JAVA_OPTS="-server -Xms2048m -Xmx2048m -Xss512k"-server:一定要作为第一个参数,在多个CPU时性能佳-Xms:初始Heap大小,使用的最小内存,cpu性能高时此值应设的大一些-Xmx:java heap最大值,使用的最大内存上面两个值是分配JVM的最小和最大内存,取决于...
阅读(4629) 评论(0)
68条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:663614次
    • 积分:10515
    • 等级:
    • 排名:第1659名
    • 原创:171篇
    • 转载:0篇
    • 译文:0篇
    • 评论:343条
    赞助合作
    我的微信公众号
    感谢打赏 支付宝二维码
    支付宝
    感谢打赏 微信二维码
    微信
    我的微博
    友情链接
    博客专栏
    最新评论
    文章分类