大数据技术数据收集的一种方式:爬虫
因为大数据的课程设计作业,博主用了近一周写了一个小爬爬
我们的想法是爬一个网站上的名著 然后分析作者写作风格
爬前准备:
能力篇:
1.Java有良好的基础
2.对JS(JavaScript)、html、css、ajax有简单的了解
3.正则表达式基础掌握
4.会简单的数据库操作
5.对设计模式有简单了解
5.上面都是博主忽悠你的,会“Hello World”就够了
软硬件篇:
1.MacBook pro 3.5 i7 16g内存 ( 请允许我做一个滑稽的表情
2.净网大师(只是一个过滤网页广告的应用程序,因为博主要爬的网站可能会弹出来很多....你懂的)
3.火狐浏览器(真的好用,谁用谁知道,主要来看html源代码)
4.SQL Server2012(可有可无,主要是楼主觉得用数据库方便,到时候会讲没有数据库要怎么办)
5.上面都是博主忽悠你的 有Eclipse就够了
博主要上床睡觉了,今天看了一天书,明天正式开始我们的小爬爬之路。