- 博客(5)
- 资源 (14)
- 收藏
- 关注
转载 HtmlUnit实现ajax网络爬虫
网上关于网络爬虫实现方式有很多种,但是很多都不支持Ajax,李兄说:模拟才是王道。确实,如果能够模拟一个没有界面的浏览器,还有什么不能做到的呢?关于解析Ajax网站的框架也有不少,我选择了HtmlUnit,官方网站:http://htmlunit.sourceforge.net/,htmlunit可以说是一个Java版本的无界面浏览器,几乎无所不能,而且很多东西都封装得特别完美。这是这几天来积累
2013-08-30 23:46:06 22722 7
原创 异常处理:使用UTF-8编码Mysql仍然抛出Incorrect string value异常
之前还以为从上至下统一用上UTF-8就高枕无忧了,哪知道今天在抓取新浪微博的数据的时候还是遇到字符的异常。新浪微博返回的数据编码是unicode,而数据库用的是uft8,在转换的时候有些字符会得到4字节的utf8编码。从新浪微博抓到的数据在入库的时候抛出异常:Incorrect string value: '\xF0\x90\x8D\x83\xF0\x90...'
2013-08-29 17:41:39 13203
转载 MySQL基础配置之mysql的默认字符编码的设置(my.ini设置字符编码)
MySQL基础配置之mysql的默认字符编码的设置(my.ini设置字符编码)MySQL的默认编码是Latin1,不支持中文,那么如何修改MySQL的默认编码呢,下面以设置UTF-8为例来说明.MySQL的默认编码是Latin1,不支持中文,那么如何修改MySQL的默认编码呢,下面以UTF-8为例来说明需要注意的是,要修改的地方非常多,相应的修改方法也很多。下面是一种最
2013-08-08 14:55:57 926
转载 深入Mysql字符集设置
作者: Laruence( )本文地址: http://www.laruence.com/2008/01/05/12.html转载请注明出处根据Chaos Wang的PPT整理而成, 在此再次感谢Chaos Wang的此次TechTalk基本概念• 字符(Character)是指人类语言中最小的表义符号。例如’A'、’B'等;• 给定一系列
2013-08-08 14:19:03 700
原创 重解析xml后出错:Content is not allowed in trailing section.
Content is not allowed in trailing section. org.xml.sax.SAXParseException: Content is not allowed in trailing section.总结一下,这个问题主要出现的原因有两点。 1、XML内容不正确,比如多个空格,换行等等。需要仔细排查;2、使用Str
2013-08-01 12:25:19 32872
2020年最新火狐浏览器驱动集合geckodriver-v0.26.zip
2020-01-15
最新最全1.8寸tft液晶屏st7735资料及其代码(安卓、C51、stm32)
2019-04-19
GitExtensions-2.51.01-SetupComplete(Windows)
2018-04-18
My97DatePicker文件包和使用例子
2015-04-02
经典30个java工具类
2013-09-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人