python可以查ip地址吗_Python爬虫练手小项目(1)获取、查询ip地址

正所谓饭饱思淫欲,吃饱没事干,不如一起来写写python代码把(滑稽)。

起因是最近在学习一本叫《Python网络数据采集》的书其中有一章讲到用网络爬虫来使用API。虽然书上举的栗子要么就是API地址被墙,要么就是这个API在现已经不能再使用了(可能是书比较老的原因把,不过原理是相通的就好啦)跑题了~。

在这章中里面的其中一个例子是通过发起API请求通过这个API来返回一系列关于IP地址的json数据,如下:

额~~~然后下文的意思就是通过返回的json数据用Python中的json库来解析数据再然后投入使用,可以看出这个API返回的信息十分的丰富,基本的地理位置,城市,经纬度等等。像我这样的新手是不知道这些东西是可以用来干嘛的,作者在下文中也介绍了她通过这个API收集了大量维基百科编辑者的地理数据,用Google 的地理图形库做了一个显示维基百科英文版的编辑者所在位置的可视图。(图就不接上了,有兴趣的同学可以上网搜这本书来看看)

前戏结束,好,上面说的查ip信息的API现在是不能访问了,详情自己可以找找看,正因为这样给了我一个脑洞,可不可通过访问国内查ip的网站来自己写一个python爬虫脚本,实现代码查询ip地理位置的功能呢,代码直接上,有的同学估计等不及了,这个博主是个睿智吧。建议先通读代码,再看我下面的解释。

# !/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

from fake_useragent import UserAgent

"""author:Zisc功能:获取本机IP地址, 查询IP地址原理:爬取国内的查询网站,观察请求参数,简单的抓包分析,然后写匹配规则把对应内容匹配出来缺点:如果网页改版,则代码报废"""

class GetLocalIpAddress(object):

def __init__(self):

self.headers = {"User-Agent": UserAgent().random}

self.sourse_html = 'http://www.ip138.com/ips138.asp?'

def get_local_ip(self):

response = requests.get(self.sourse_html, headers=self.headers)

response.encoding = None # 编码问题

bsObj = BeautifulSoup(response.text, 'lxml')

ip_address = bsObj.find_all('table', {'align': 'center'})[1].find_all('td', {'align': 'center'})

local_ip = ip_address[1].get_text()

return local_ip

class GetIpAddress(object):

def __init__(self):

self.headers = {"User-Agent": UserAgent().random}

# http://www.ip138.com/ips1388.asp?ip=121.97.110.145&action=2

self.sourse_html = 'http://www.ip138.com/ips138.asp?ip={}&action=2'

def demand_ip(self, ip):

self.sourse_html = self.sourse_html.format(ip)

response = requests.get(self.sourse_html ,headers=self.headers)

response.encoding = None

# print(response.text)

bs0bj = BeautifulSoup(response.text, 'lxml')

ip_address_tag = bs0bj.find("ul", {'class': 'ul1'}).find_all('li')[0]

ip_address = ip_address_tag.get_text().strip()

return ip_address

if __name__ == '__main__':

test = GetIpAddress()

test1 = GetLocalIpAddress()

print(test1.get_local_ip())

print(test.demand_ip('121.97.110.145'))内查ip的网站我随便找了个,这里有个坑就是网页的编码问题。用正常方法的话该网站返回的内容是乱码,而用了一下下面这个方法就能解决了,给上链接。爬虫:再也不用担心网页编码的坑了!​zhuanlan.zhihu.com

2. 编码问题解决之后就简单了,接下来就是对网站所需内容的匹配,这里我用的是BeautifulSoup当然匹配方法有许多种,有兴趣的同学可以用其他的。

3. 最后就是我用的一个叫fake_useragent的库配合requests访问网站时加上headers(做戏做全套嘛)

4. 基本的都没什么问题了,可能就是有的同学可能会对BeautifulSoup不熟悉,还有可能就是一些Python基本的语法问题吧。

写在最后:

本文仅供参考学习,还有就是我的代码肯定是不够完善的以及规范问题,望请各位多多指出一起交流学习,最后再矫情一下,时隔5月这是我的第二篇码的文章,这段时间我也有所成长。目标以后多多发这类的文章,而不再是每过一阵子兴致来时的诈尸操作,在学习路上一起共勉吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值