php计算机专业毕业设计题目,计算机专业毕业论文-基于PHP的网络爬虫的设计与实现.doc...

毕 业 设 计

题目:网络爬虫的设计与实现

I

摘要

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页, 是搜索引擎的重要组成。通过网络爬虫不仅能够为搜索引擎采集网络信息,而 且可以定向采集某些网站的特定信息,如新闻内容等。本文通过 PHP 语言实现了一个爬虫程序。本论文阐述了网络爬虫实现中一 些主要问题:为何要使用多线程,以及如何实现多线程;网页的下载和分析等。通过实现这一爬虫程序,可以搜集某一站点的 URLs 及一些我们想要的信 息,并将搜集到的网址和信息存入数据库。

关键词:网络爬虫PHP信息抓取II

Abstract

Web crawler is an process which can automated download web page, it download Web page for search engines, it is an important component of search engines. SPIDER can collect data for search engines, and can capture some of the websites the targeted specific information, such as the post content.In this paper, we use PHP implements a SPDIER process. This paper expatiates some major problems of SPIDER: why to use multi-threading, and how to implement multi-thread; download and analysis Web page. etc.

Key Words: SPIDERPHPINFORMATION CAPTURE PAGE \* ROMANIII

目录 HYPERLINK \l "bookmark0" 摘要I HYPERLINK \l "bookmark1" AbstractII HYPERLINK \l "bookmark2" 引言1 HYPERLINK \l "bookmark3" 1 本文相关技术介绍3 HYPERLINK \l "bookmark3" 1.1 所开发语言 PHP 简介3 HYPERLINK \l "bookmark3" 1.1.1PHP 语言3 HYPERLINK \l "bookmark3" 1.1.2PHP 的发展3 HYPERLINK \l "bookmark4" 1.1.3PHP 功能5 HYPERLINK \l "bookmark5" 1.2 XML 简介7 HYPERLINK \l "bookmark5" 1.2.1 XML 语言7 HYPERLINK \l "bookmark5" 1.2.2 XML 与 HTML 的主要差异7 HYPERLINK \l "bookmark5" 1.2.3 XML 的文档结构7 HYPERLINK \l "bookmark6" 1.2.4 XML 语法规则8 HYPERLINK \l "bookmark6" 1. 所有 XML 元素都须有关闭标签8 HYPERLINK \l "bookmark6" 2. XML 标签对大小写敏感8 HYPERLINK \l "bookmark7" 3. XML 必须正确地嵌套9 HYPERLINK \l "bookmark7" 4. XML 文档必须有根元素9 HYPERLINK \l "bookmark7" 5. XML 的属性值须加引号9 HYPERLINK \l "bookmark7" 6. XML 中的注释9 HYPERLINK \l "bookmark8" 1.3 XPath 简介10 HYPERLINK \l "bookmark8" 1.3.1XPath 语言10 HYPERLINK \l "bookmark8" 1.4 开发工具 LAMP 简析10 HYPERLINK \l "bookmark9" 1.4.1linux 操作系统11 PAGE \* ROMANIV

HYPERLINK \l "bookmark10" Apache12 HYPERLINK \l "bookmark10" MySql12 HYPERL

微信扫码订阅
UP更新不错过~
关注
  • 0
    点赞
  • 1
    收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值