网站行业搜索,数据源来自于互联网

37 篇文章 0 订阅

 流程图

最近公司管理层有个新想法,想利用百度,GOOGLE等网站的海量信息,做一个我们自己的行业搜索网站,做为公司的一个新频道,也可以说一个特色服务;第二天交个思路(上面的流程图),数据库方面的内容,需要的可以在第四步骤之后写到库;以前有过网络编程的简单知识和正则基础,所以基本没有问题.考虑到性能问题,要用到多线程编程,这方面只有一点点了解,老板就让我把这点研究一下.之后确定一个开发进度和任务安排.今天看了多线程的文章,很不错,发给大家看看:C#.net多线程编程教学(1): 线程同步多任务和多线程

流程图解说:

开发工作 :
      a.百度数据分析模块
        b.业务处理模块
        c.表示层模块
        d.数据库设计
  详细说明 :
a.      【百度数据分析模块】主要工作
1. 百度新闻列表页分析
2. 制定新闻列表页正则
b.      【业务处理模块】主要工作
1.根据组合URL,获取HTML数据
2.处理HTML数据,由正则提取有用信息(如标题,链接,摘要,时间等等)
3.结构化提取信息(记录到模拟数据库和SQLSERVER),显示给用户
4. 多线程编程 , 性能测试 , 功能测试
c.       【表示层模块】主要工作
1.友好提示效果
2.AJAX无刷新提交
d.      【数据库设计】主要工作
1.       新闻表

编号
标题
标题链接
来源
摘要
日期
图片新闻
图片
分类

                                          百度标题是加粗的 , 获取时加粗的处理
2.       词条表

编号
词条关键值
词条
词条关键值点击量
词条点击量
日期
..

3.分类表(一分类对应一正则)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值