昨天写Java写的有点累了,看着自己的博客分类乱七八糟的,遂心生了整理一下博客文章分类的想法。
手动整理了一会发现好累啊,重复的工作让程序来做就好了嘛。
于是就写了这个小脚本。
user_request_to_change.py
import requests
from lxml import etree
import re
# 获取指定类别的文章的 url
def get_article_url_list(page_url, session_obj):
page_article_list = session_obj.get(page_url).text
my_selector = etree.HTML(page_article_list)
article_url_list = my_selector.xpath('//td[@class="tdleft"]/a/@href')
return article_url_list
# 获取包含指定关键字的文章的 url
def get_spcify_article_url_list(page_url, session_obj):
page_article_list = session_obj.get(page_url).text
my_selector = etree.HTML(page_article_list)
article_url_list = my_selector.xpath('//a[contains(text(),"基于《PythonCookbook》")]/@href')
return article_url_list
if __name__ == "__main__":
session = requests.Session()
initial_category = 'Django'
target_categhory = '------Python------'
# 设置 cookie
session.cookies.set('Cookie',
'yourCookie')
# 这个 option 标签的文本内容是用 js 动态生成的...
# 获取初始目录和目标目录的 id
page_source_code = session.get('http://write.blog.csdn.net/postlist').text
selector = etree.HTML(page_source_code)
initial_category_id = selector.xpath('//option[