新浪新闻搜索引擎
沙河小渔民
自己选的路,爬也要爬完
展开
-
如何一天做出新闻搜索引擎(0)
如何一天做出新闻搜索引擎(0)写在前面的话内容与目录写在后面的话 写在前面的话 大家好!这篇文章主要是记录了我在制作新浪新闻搜索引擎的一些心得与体会。虽然这篇文章的题目叫《如何一天做出新闻搜索引擎》,但是说实话,当初我写这个搜索引擎的时候用了大概四天。但用了四天才做出来是有原因的:一是当时并没有很直接的技术文章指导,只能在各种文章中汲取知识,不断拼凑与尝试;二是当时基础很薄弱,基本上是只懂一些Py...原创 2019-02-22 22:55:13 · 1976 阅读 · 1 评论 -
如何一天做出搜索引擎(2)——搜索与匹配
写在前面 大家好!这一章主要介绍搜索引擎的搜索与匹配部分的思路与实现。在上一章中,我们实现了新浪新闻的搜集和数据库的建立。这为我们这一章的搜索打下了基础。我们在这一章要实现搜索引擎的最为重要的部分——将用户输入的文字与数据库中的新闻进行匹配,从而为用户推荐与他的搜索最为相关的、且时效性较好的几条新闻。 这篇文章只是讲解思路,代码的展示也是为了配合讲解。如果大家要查看源码,请移步我的github,这...原创 2019-02-27 21:46:41 · 1355 阅读 · 2 评论 -
如何一天做出新闻搜索引擎(3)——GUI(图形用户界面)的制作
文章目录写在前面开始制作GUI!1. 它长什么样?2. 如何实现?3. 还有什么可以改进的地方?写在后面 写在前面 大家好!这一章主要讲解搜索引擎GUI的设计与实现。还记得我在《如何一天做出新闻搜索引擎(0)》中放的几张镇楼的图片吗?我们在前几章已经完成的搜索引擎的所有后台的程序,接下来就是制作与用户交互的界面啦! 个人觉得,这一部分才是最有成就感的部分,因为GUI可以给我们一种“我们写的程序终于...原创 2019-02-27 23:26:56 · 858 阅读 · 4 评论 -
如何一天做出新闻搜索引擎(1)——新闻的搜集与数据库的建立
新闻的搜集与数据库的建立写在前面1. 爬取什么2. 怎么爬2.1 分析网页的HTML源码,找到规律2.1.1 分析滚动页面2.1.2 分析新闻页面2.2 分析完毕,开始动手写代码爬网页2.2.1 爬滚动页面2.2.2 爬新闻页面3. 爬完干什么 写在前面 大家好,这一章主要来介绍如何选取爬取的页面,如何确定爬取内容的方法和怎样建立数据库。 1. 爬取什么 我们选取页面的原则是页面要尽可能地“整齐”...原创 2019-02-23 22:15:00 · 2233 阅读 · 3 评论