nova-week3

最新推荐文章于 2023-01-15 14:57:58 发布

sunflower_zzn

最新推荐文章于 2023-01-15 14:57:58 发布

阅读量243

点赞数

分类专栏： nova-work

本文链接：https://blog.csdn.net/sunflower_zzn/article/details/88694119

版权

nova-work 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.链接的跟踪和爬取

1.1寻找任何一个站点主页，例如www.nju.edu.cn将当前页面中的所有链接提取出来，用一个 json 格式的文件存储

1.1.1/2 基础知识和思考题

json文件格式的具体语法：SoJson在线编辑，格式化，Json语法介绍

python中的json库用法:
python json-菜鸟教程
 json模块详解

json.dumps函数相当于文件读写中的write，作用：把python对象编码为JSON字符串
dumps：无文件操作 dump：序列化+写入文件
json loads函数相当于文件读写中的read，作用：将已编码的 JSON 字符串解码为 Python 对象
loads：无文件操作 load：读文件+反序列化

不带s的用于操作文件，带s的用于数据类型的转换：

def store(data):
    with open('data.json', 'w') as fw:
        # 将字典转化为字符串
        json_str = json.dumps(data)
        fw.write(json_str)
        # 上面两句等同于下面这句
        json.dump(data,fw)
        fw.close()

将json语句格式化的代码：

data={"a":1,"b":2,"c":3,"d":4,"e":5}
Json=json.dumps(data,sort_keys=True, indent=4, separators=(',', ': '))
print(Json)

用python.json读写一个json文件的函数封装：

import  json
def json_write(file):
    with open(file,'a') as f:
        data={"a":1,"b":2,"c":3,"d":4,"e":5}
        Json=json.dumps(data)
        f.write(Json)
        f.close()
    return
def json_read(file):
    with open(file,'r') as f:
        Json=json.loads(f.read())
        #没有找到通过loads（）方法直接格式化内容的办法
        Json=json.dumps(Json,sort_keys=True, indent=4, separators=(',', ': '))
        #格式化json代码，为了好看
        print(Json)
        f.close()
if __name__=="__main__":
    json_write(r"C:\Users\lenovo\Desktop\test.json")
    json_read(r"C:\Users\lenovo\Desktop\test.json")

将含中文的可迭代对象写入json文件：

#把中文形式的可迭代对象写入json文件中
import json
with open(r"C:\Users\lenovo\Desktop\test.json",'a') as f:
        data={"一":1,"二":2,"三":3,"四":4,"五":5}
        Json=json.dumps(data,sort_keys=True, indent=4, separators=(',', ': '))
        f.write(Json)
        f.close()

结果为：

{
    "\u4e00": 1,
    "\u4e09": 3,
    "\u4e8c": 2,
    "\u4e94": 5,
    "\u56db": 4
}

原因： 由于# – coding: utf-8 – 的作用，文件内容以utf-8编码，json文件中的是utf-8编码后的结果\u4e00
json.dumps 序列化时对中文默认使用的ascii编码
字符串在Python内部的表示是unicode编码。
因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码;decode（’utf-8’）表示将utf-8编码的字符串转换成unicode编码。
encode的作用是将unicode编码转换成其他编码的字符串;encode(‘gb2312’)，表示将unicode编码的字符串转换成gb2312编码。

处理中文问题的解决办法：

Json=json.dumps(data,ensure_ascii=False

1.1.3任务代码

import requests
import json
from lxml import etree
def get_html(url):
    "获取网站的html代码并将其用lxml初始化,并返回"
    Html=requests.get(url)
    html=etree.HTML(Html.text)
    return html
def get_link(html):
    "获取html中的链接地址,并写入文件"
    with open(r"C:\Users\lenovo\Desktop\test.json",'a')as f:
        link=html.xpath("//a/@href")
        Json=json.dumps(link,sort_keys=True, indent=4, separators=(',', ': '))
        f.write(Json)
        f.close()
if __name__=="__main__":
    html=get_html(r'http://www.nju.edu.cn/')
    get_link(html)

运行结果截图：
在这里插入图片描述

注意！！！

不要在json文件中写任何的注释，注释会被当做一个顶级项！ json就是一个对象它必须是由[…]或者{…}构成的

1.2链接内链的爬取

1.2.1/2基础知识及思考题

正则表达式可以用与字符串操作，相当于规定想要数据的规格，然后在大量数据中寻找想要的进行操作
廖雪峰博客——正则表达式规范
 菜鸟教程——正则大全
需要用到re库我已在软工的课程中对正则表达式有所了解和学习
两个超级好用的网站：
将正则表达式可视化！！！
给出每一步正则表达式的解释

写出匹配 11 位电话号码的正则表达式，假设任何一个电话号码都必定以数字 1 开头。

[1][0-9]{10}

写出匹配南京大学邮箱的正则表达式，该邮箱可以是教职工邮箱（ xxx@nju.edu.cn ）或学生邮箱（ xxx@smail.nju.edu.cn ）

[\w]+@(smail)?nju\.edu\.cn

任何一个目录都可以用绝对路径和相对路径表示。假设我们当前处于目录 C:/user/Nova/ 下，输入的目录为DS/week3 ，这是一个加在当前目录后的相对路径，代表将当前目录转为 C:/user/Nova/DS/week3/ ；如果输入目录 C:/user/Nova/DA/ ，这是一个绝对路径目录，代表将当前目录转为 C:/user/Nova/DA/ 。请通过正则表达式识别一个输入是相对路径还是绝对路径，并输出转换后的目录。

#正则表达式相对路径练习
import  re
address=input()
if re.match(r"C:/user/Nova/[\w]*",address):
    print(address)
else:
    print("C:/user/Nova/"+address)

1.2.3任务代码

#从任务1中的站点主页出发，获取当前站点的所有内链链接，将其通过 print 方法打印到控制台。
import re
import requests
from lxml import etree
import json
def json_read():
    "读取json文件中的内容"
    with open(r"C:\Users\lenovo\Desktop\test.json",'r') as f:
        link=json.loads(f.read())
        f.close()
    return link
def get_postfix(url):
    "爬取对应url下的链接地址"
    Html=requests.get(url)
    html=etree.HTML(Html.text)
    link=html.xpath("//a/@href")
    return link
def url_search(prefix,link):
    "寻找匹配的内链地址并输出;通过递归穷尽所有分支"
    for i in link:
        if re.match(r"/[\w/]+\.htm[\w]*",i):
            print(prefix+i)
            post=get_postfix(prefix+i)
            if post!=[]:
                url_search(prefix+i,post)
    return
if __name__=="__main__":
    link=json_read()
    url_search("http://www.nju.edu.cn",link)

结果

爬下来212条htm后缀的内链地址

2.图片文件的爬取

os库基础:

百闻不如一用:os库实例
 一篇详细介绍图片爬取的博客
注:非文本文件要用二进制写入文件url.content

代码:

#将南京大学主页 www.nju.edu.cn 中的所有图片保存到本地，当前代码文件目录的 img 文件夹下
import os
import re
import requests
from lxml import etree
def dir_make():
    "判断当前目录下是否有'img'文件夹,没有就创建一个"
    path=os.getcwd()
    if os.path.isdir(path+'\img'):
        pass
    else:
        os.makedirs('img')
    return
#网站中两类图片存放的标签不同,分别用函数爬取
#封面大图不会爬5555
def png1_crawler():
    "爬取网页内所有的图片(类型一)"
    url=requests.get("http://www.nju.edu.cn")
    html=etree.HTML(url.text)
    photo_address=html.xpath("//img/@src")
    return photo_address
def png2_crawler():
    "爬取网页内所有的图片(类型二)"
    url=requests.get("http://www.nju.edu.cn")
    html=etree.HTML(url.text)
    photo_address=html.xpath("//a/div/@style")
    new_photo_address=[]
    for i in photo_address:
        a=re.findall("/.*\.jpg",i)
        new_photo_address.append(a[0])
    return new_photo_address
#png2_crawler()不知道为什么只能爬下来一张代码555
def save():
    "将图片存入文件夹中"
    url1=png1_crawler()
    for i in range(len(url1)):
        with open(r'C:\Users\lenovo\Desktop\untitled\nova\img'+"\\"+str(i)+".jpg",'wb')as f:
            html="http://www.nju.edu.cn"+url1[i]
            r=requests.get(html)
            f.write(r.content)
            f.close()
    url2=png2_crawler()
    for i in range(len(url2)):
        with open(r'C:\Users\lenovo\Desktop\untitled\nova\img'+"\\"+str(i+100)+".jpg",'wb')as f:
            html="http://www.nju.edu.cn"+url2[i]
            r=requests.get(html)
            f.write(r.content)
            f.close()
    return
if __name__=="__main__":
    dir_make()
    save()

结果:从网站上爬下来了12张图片

在这里插入图片描述

sunflower_zzn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nova-week3

1.链接的跟踪和爬取1.1寻找任何一个站点主页，例如www.nju.edu.cn将当前页面中的所有链接提取出来，用一个 json 格式的文件存储1.1.1/2 基础知识和思考题json文件格式的具体语法：SoJson在线编辑，格式化，Json语法介绍python中的json库用法:python json-菜鸟教程json模块详解json.dumps函数相当于文件读写中的write...
复制链接

扫一扫

专栏目录