回复:如何处理页面的关键字和描述

zhangcg
  发表于:2008-09-05 13:00:13 楼主
新闻类,程序自动从其他网站获取正文,然后保存成html文件,如何获取正文中的关键字信息,把静态页面里的keyword和Description内容替换掉


froole
发表于:2008-09-10 09:25:49 5楼 得分: 0
想要得到可以替换掉keyword内容的数据,必须从数据库中提取关键字,
数据的保存格式类似于论坛的分区和帖子之间的父子关系。

但,问题是关键字如何生成。

我觉得生成关键字方式主要分为以下两种:
1.手动提交
  也就是在提交新闻的时候,有一个关键字的栏,人工输入需要的关键字。
2.自动提交提交新闻的时候根据内容生成
  从一篇文章中提取关键字是一项很繁琐的运算,通常叫做分词,也是搜索引擎的关键技术之一。
  想要做到即使提取是不太可能的。可以分为以下两种:
  2.1 提交新闻时自动输入
      提交新闻的时候,可以用JavaScript从内容中提取关键字,当然,如果内容较长,提取的时间也会变长。
      不过,提交内容的时间稍微长一点,通常不会影响到UI的操作质量,而且,具体想要分析到哪一步,可以根据情况而定。
  2.2 后台程序自动生成
      简而言之,就是用一个后台程序,分析新闻内容,然后自动生成关键字信息,保存到数据库中。

DZ论坛关键字的提取,就是方法1和2.1的结合。
lz可以根据自己的需求选择适合自己的方法。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值