面向对象的爬虫实现

最新推荐文章于 2024-01-04 22:45:21 发布

Expcman

最新推荐文章于 2024-01-04 22:45:21 发布

阅读量326

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/qq_45316770/article/details/126155594

版权

该博客介绍了一个使用Python面向对象编程实现的简单爬虫，包括登录功能和数据抓取。首先定义了一个类`get_string_xml`，在其中初始化了请求头，并实现了登录函数，获取登录后的Token。接着，定义了一个`get_data`方法来抓取并解析数据。最后，将抓取到的数据按特定顺序排序并存储为XML格式的本地文件。

摘要由CSDN通过智能技术生成

使用面向对象的概念进行一个爬虫的编程。

class get_string_xml():

    def __init__(self) -> None:
        self.header = {
            'header':'Mozilla/5.0 (Windows NT 10.0; WOW64)'
        }

将目标数据抓取下来后转换成xml格式类型机型存储

    def loginn(self):
        url = 'http://URL/login'
        data = {
            'username':'ADMIN',
            'password':'PWD',
        }
        self.se = session()
        res = self.se.post(url=url,headers=self.header,data=json.dumps(data))
        token,user = res.headers['Token'],res.headers['User']

在类中定义一个登录函数，记录登录后的用户Token

   def get_data(self):
        
        tt = self.se.get(url='http://url/xxxxxxxx'.format(pro_id,lan_id),
                         headers=self.header_data)
        all_index = json.loads(tt.text)
        try:
            lan = json.loads(tt.text)['xxxx']
        except:
            raise

定义解析抓取数据的函数。（抓取下的网页内容较为简单

n = sorted(_data,key=cmp_to_key(gg))
            
        with open(file_name + '.xml','a+',encoding='utf-8') as t:
              xml_example = '     <string name="%(e)s">%(c)s</string>'
              for i in n:
                  bb = xml_example % {'e':i['key'],'c':i['translate']}
                  t.write(bb + '\n')

将抓取的数据进行自定义排序（cmp）

打开本地的文件，循环抓取到的数据将其写入本地文件中

if __name__ == '__main__':
    demo = get_string_xml()
    demo.loginn()
    produce_id = input('please enter produce_id: \n')

执行函数。

Expcman

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫