csdn 笔记

http://blog.csdn.net/yt7589/article/details/6658687

        网页抓取可以使用Apache的HttpClient,网页分析可以采用Jsoup,但是出于程序员的本能,发现只需要十几行代码就可以实现的网页抓取功能,用Apache HttpClient光下载所需软件就需要几M,索性就自己写吧,从头开始的成就感可比采用开源软件强烈多了。

        在Eclipse下建立一个新工程,创建网络爬虫接口WebCrawler,然后建立专门针对京东的网络爬虫类JdCrawler,实现接口方法getContent,输入京东商城的网址http://www.360buy.com/,首先发现京东的首页好大,几经调整Buffer的大小,终于完整下载下来京东商城首页,第一眼就发现,京东商城利用HTML中的meta属性,增加了关键词的密度,算是一种搜索引擎优化(SEO)的实用小技巧吧。

         基于内容的推荐引擎:中文分词、术语向量、向量距离、自动聚类算法

         做社会化电子商子商务方向,初期就是做京东、卓越等3C电子商城的聚合网站,提供比价信息,然后会加上全文检索、数据挖掘、推荐引擎等方面内容。

         第一种是利用大型门户网站注册邮箱进行病毒式营销的,利用用户通信录发送邀请邮件,不过现在用户已经知道这是系统自动产生的,效果应该大打折扣了;第二种是与其他网站进行流量置换的,不过这个需要你有其他流量大的网站,才能把流量导过来;第三种是买肉鸡电脑冲流量,现在专门有人做木马程序,将这些程序通过下载软件而安装到客户机器上,他们就可以命令这些中了木马的电脑做任何事情,比如他操纵这些木马机器来访问你的网站,你的网站在Alexa的排名肯定上去。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值