网页书签整理难？用这个方法轻松搞定

最新推荐文章于 2024-12-08 11:25:56 发布

阿冲编程

最新推荐文章于 2024-12-08 11:25:56 发布

阅读量2.5k

点赞数 1

文章标签： python 开发语言 chrome

本文链接：https://blog.csdn.net/geoker/article/details/131030675

版权

前言

最近在做资料整理的工作，遇到了网页书签整理的问题

然后我就想怎么样才能更方便的整理自己的书签？

后来看到自己看生财文章做的一个网页清单链接，于是就有了一个想法，我能不能把自己的网页书签导出来，然后批量整成一个表格，在这个表格里面做筛选编辑，这样会更快。

于是就有了这篇整理网页书签的思路。

整个内容分三块，第一块是方法论，第二块是实践过程，第三块是总结。

方法论

网页书签实际上就是我们在浏览网页的时候，收藏的一个快捷方式。它所包含的关键要素主要是我们备注的名字和网页的链接。

我们最需要做的就是如何对这些名字和网页的链接做高效的管理，以便之后能快速找到相应的内容。

当然一般网页它本身会自带一个title，当我们点网页收藏的时候会自动的填充title，收藏的时候就以这个title作为名字就好了。

自动收藏网页是收藏夹吃灰罪恶的开始，所以我们一定要进行网页收藏夹的整理。

但整理这件事情的过程和目的每个人都不相同，虽然我们没有办法直接生搬硬套别人的框架，但高效整理的方法是相通的。

执行过程

在浏览器里边整理内容是痛苦的，要不断地进行编辑、修改，移动和删减书签。

先上效果

整理前

因此就需要把它导到一个外部的平台，进行一个更高效的编辑。然后再把它同步回网页浏览器。

这是我之前的一个浏览器书签，可以看到非常的混乱，同时还会有一些重复的内容。

整理后

这是我之后整理完之后的内容，可以看到其实我对自己内容的分类的话，目前也就只分为了五类。并不像其他教程一样需要把所有的内容进行有穷分类。

每个人的需求不同，适合自己才是最好的。

第一步：导出书签

第二步：提取书签内的链接和名称

这里我使用的是python代码，以下大家可以直接复制粘贴使用，需要大家把导出的书签文件和代码放到一块，同时修改代码中的bookmark变量。

import requests
from lxml import etree

bookmark = "bookmarks_2023_6_3.html"

with open(bookmark, 'r', encoding='utf-8') as f:
    contents = f.read()

tree = etree.HTML(contents)

# 找到所有的书签链接
links = tree.xpath('//a')
links = list({each.attrib['href']: each for each in links}.values())
links.sort(key=lambda x: x.attrib['href'])
# 打印每个链接的标题和网址
print(len(links))
x = []
[x.append(f"{link.text}\t{link.attrib['href']}") for link in links]
with open(f'{bookmark.split(".")[0]}.txt', 'w', encoding='utf-8') as f:
    f.write('\n'.join(x))

执行完代码之后，会在同级目录下出现一个以txt为后缀的文件，我只提取了书签中a标签的名字和网址，如果有其他更多的需求也可以和我聊聊。

打开文件后，内容的样式为

第三步：把内容导入进表格进行整理

这个时候我们可以把内容全选复制到表格里面进行方便的浏览和筛选整理

这里我把title和url都复制到了飞书表格里面，更方便地进行处理。

对每个书签打上合适的标签，方便自己筛选。

为了能快速地做文件夹分类，我在C列以数字来代表了不同的分类。

第四步：通过代码生成书签html

最后整理好的表格内容，我们再把它复制到一个txt文件当中，同时执行下面的代码

import time
class BookmarkFolder:
    def __init__(self, name="默认", add_date=None, last_modified=None):
        self.name = str(name)
        self.add_date = int(add_date) if add_date is not None else int(time.time())
        self.last_modified = int(last_modified) if last_modified is not None else int(time.time())
        self.children = []

    def add_child(self, child_node):
        self.children.append(child_node)

    def to_xml(self):
        # 定义递归函数，用于将子节点转换为XML字符串
        def build_xml(node):
            # 如果节点是BookmarkFolder类型，将其作为文件夹处理
            if isinstance(node, BookmarkFolder):
                # 获取当前文件夹的名称和属性
                folder_name = node.name
                add_date = node.add_date
                last_modified = node.last_modified

                # 生成XML标签
                xml = f'<DT><H3 ADD_DATE="{add_date}" LAST_MODIFIED="{last_modified}">{folder_name}</H3>\n<DL><p>\n'

                # 遍历所有子节点并递归处理
#                 node.children.sort(key=lambda x:x,reverse=False)
                for child_node in node.children:
                    xml += build_xml(child_node)

                # 加上结束标签
                xml += '</DL><p>\n'
                return xml

            # 如果节点是字符串类型，则将其视为链接
            elif isinstance(node, str):
                link_url = node.split('\t')[0]
                link_text = node.split('\t')[-1]  # 取URL路径的最后一段作为链接文本
                return f'<DT><A HREF="{link_url}">{link_text}</A>\n'

            # 如果节点不是BookmarkFolder或字符串类型，则抛出异常
            else:
                raise ValueError(f'Unsupported data type: {type(node)}')

        # 生成XML头部和根标签
        xml = '<!DOCTYPE NETSCAPE-Bookmark-file-1>'
        xml += '<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">'
        xml += '<TITLE>Bookmarks</TITLE><H1>Bookmarks</H1><DL><p>\n'

        # 调用递归函数处理所有子节点
        for child_node in self.children:
            xml += build_xml(child_node)

        # 加上结束标签和换行符，返回结果
        xml += '</DL><p>\n'
        return xml
class Bookmark:
    def __init__(self,info):
        infos = info.split('\t')
        self.name = infos[0]
        self.url = infos[1]
        self.dirs = infos[2]
        self.keywords = infos[3:]

def get_class(num):
    if num == "2":
        return "1应用"
    if num == "3":
        return "2文章"
    if num=="4":
        return "3文档"
    if num=="5":
        return "4工具"
    return "0其他"
data = []
with open("deal.txt","r") as f:
    data = [Bookmark(x.strip()) for x in f.readlines()]
    data.sort(key=lambda x:x.keywords)

files = {}
def data_to_bookmark(data):
    root_folder = BookmarkFolder('root')
    for ele in data:
        if ele.dirs not in files:
            fd = BookmarkFolder(get_class(ele.dirs))
            files[ele.dirs] = fd
            root_folder.add_child(fd)
        keywords = f"【{'|'.join(filter(None,ele.keywords))}】 " if len(ele.keywords)>0 else ""
        files[ele.dirs].add_child(f"{ele.url}\t{keywords}{ele.name}")
    return root_folder

root_folder = data_to_bookmark(data)
root_folder.children.sort(key=lambda x:x.name)
# 转换为 XML 字符串
bookmarks_xml = root_folder.to_xml()

# 输出结果
print(bookmarks_xml)
with open("import.html","w") as f:
    f.write(bookmarks_xml)

该代码打开了一个名为deal.txt的文件，文件的内容是从飞书复制的表格内容，以\t分隔的字段，包含了，名称，网址，目录，tag1，tag2，tag3，然后输出一个import.html文件。