Python爬虫demo(查询电话号码的信息)

该文描述了一个使用Python进行网络爬虫,从IP138网站抓取电话号码信息,然后利用Flask框架创建Web服务,将数据呈现在HTML页面上的过程。开发环境包括VSCode,涉及的库有requests、lxml和Flask。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 开发环境

        编译器:vscode

        语言:python, html

二. 源代码(python, html)

  • 文件夹架构

  • 通过python,爬取电话号码信息并储存

  • 通过html代码编写网页

三. Web显示

  • 将信息通过Web网页显示

一. 略


二. 源代码(python, html)


  • 文件夹架构

注意:templates 名字固定

  • python源代码(爬取电话号码后的信息,传入到html中)


# pip install flask 提供web服务的模块
# pip install requests 发送请求模块
# pip install lxml 解析数据模块

import requests
from lxml import etree
from flask import Flask, render_template, request

app = Flask(__name__) #创建一个可以支持web应用的对象

def get_mobile(phone):
    # 发送请求的地址
    url = f'https://www.ip138.com/mobile.asp?mobile={phone}&action=mobile'
    # 伪装自己
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}
    # 发送请求
    resp = requests.get(url, headers = headers)
    #设置中文显示
    resp.encoding = 'utf-8'
    # 解析数据
    e = etree.HTML(resp.text)
    #编写Xpth提取数据
    num = e.xpath('//tr/td[2]/a[1]/text()') #爬取tr/目录下,第二个td/目录中,第一个a/中的内容,输出为文本。(此处爬取的是电话号码)
    datas = e.xpath('//tr/td[2]/span/text()') #爬取tr/目录下,第二个td/目录中,span中的内容,输出为文本。(此处爬取的都是电话号码背后的属地等信息)
    datas =  num + datas #列表拼接 将两个列表拼接,用于输出
    # 解析响应
    return datas

@app.route('/') #在网页不添加任何后缀的情况下,网页显示index.html代码中的网页
def index():
    return render_template('index.html')

@app.route('/search_phone') #建立路由
def search_phone():
    phone = request.args.get('phone')
    data = get_mobile(phone)
    return '<br/>'.join(data)

# get_mobile(15********5)
app.run(debug = True) #跑web服务
  • html源代码


<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=
    , initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <form action="/search_phone" method="get">
        手机号:<input type="text" name="phone" id="">
        <input type="submit" value="查询">
    </form>
</body>
</html>

三. Web显示

  • 将信息通过Web网页显示

  1. 运行代码

  2. 打开浏览器

  3. 输入http://127.0.0.1:5000/

  • 输入电话号码

  • 显示结果

<think>嗯,用户想找Python爬虫的示例代码或者教程。首先,我需要根据用户提供的引用内容来整理相关信息。引用1提到了三个使用urllib2库的爬虫项目实例,不过urllib2现在在Python3中已经被urllib.request取代了,可能需要提醒用户注意版本问题。引用2推荐了10个入门实例,并提到了Python在不同领域的应用,这里可能需要强调基础学习的重要性。引用3则介绍了常用的库,比如requests、BeautifulSoup和Scrapy,这些都是现在比较流行的工具。 用户可能需要从简单到复杂的例子,所以应该先介绍基本的库,再给一些具体的代码示例。比如用requests获取网页内容,再用BeautifulSoup解析。另外,考虑到用户可能对爬虫框架感兴趣,可以提到Scrapy的简单例子,但可能不需要太深入,毕竟用户可能刚入门。 需要注意用户可能遇到的常见问题,比如反爬虫机制,或者如何处理动态加载的内容。这时候可能需要建议使用Selenium或者Scrapy-Splash这样的工具,但引用中没有提到这些,所以或许应该保持在引用提到的内容范围内,或者适当补充常识性的建议。 另外,引用1和2都提到了学习资料,可以推荐用户参考这些资料,并指出引用来源。同时,用户可能需要教程链接,但根据引用内容,可能无法提供外部链接,所以需要引导用户根据提到的资料名称去查找。 最后,生成相关问题的时候,要围绕爬虫的基础知识、库的使用、反策略、数据处理和应用场景等方面提问,帮助用户深入理解。</think>### Python爬虫示例代码及教程推荐 #### 一、基础爬虫示例(静态网页) **使用requests + BeautifulSoup** 1. 安装依赖库: ```bash pip install requests beautifulsoup4 ``` 2. 代码示例(抓取豆瓣电影TOP250标题): ```python import requests from bs4 import BeautifulSoup url = "https://movie.douban.com/top250" headers = {"User-Agent": "Mozilla/5.0"} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, "html.parser") for item in soup.find_all("div", class_="hd"): title = item.a.span.text print(title) ``` **说明**:通过解析HTML结构提取电影标题[^3]。 #### 二、进阶爬虫框架(Scrapy) **Scrapy框架使用步骤** 1. 安装Scrapy: ```bash pip install scrapy ``` 2. 创建Scrapy项目: ```bash scrapy startproject movie_crawler ``` 3. 编写爬虫核心代码(示例): ```python import scrapy class DoubanSpider(scrapy.Spider): name = "douban" start_urls = ["https://movie.douban.com/top250"] def parse(self, response): for movie in response.css("div.hd"): yield {"title": movie.css("a span::text").get()} ``` **特点**:Scrapy提供自动化的请求调度和数据处理管道。 #### 三、教程推荐 1. **《Python爬虫项目实例》** - 包含urllib2/requests库的基础用法(需注意Python2/3差异)[^1] 2. **《10个Python爬虫入门实例》** - 覆盖简单图片抓取、数据存储等场景[^2] 3. **官方文档** - BeautifulSoup文档:https://www.crummy.com/software/BeautifulSoup/ - Scrapy中文文档:https://scrapy-chs.readthedocs.io #### 四、注意事项 1. 遵守目标网站的`robots.txt`协议 2. 添加延时防止被封IP(如`time.sleep(2)`) 3. 动态网页建议配合Selenium使用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值