最近在oschina论坛里发了一些文章,然后呢,今天主要是没有什么内容发布了,所以准备发个小代码。
爬取一下我的oschina论坛内的链接和标题,非常简单,非常容易。
先上代码
from requests_html import HTMLSession
session = HTMLSession()
url = “https://my.oschina.net/u/4798232" r = session.get(url)
for i in range(1, 12):
i = str(i)
urlxpath = ‘//*[@id=”newestBlogList”]/div[1]/div[‘+i+’]/div/a’
bt = r.html.xpath(urlxpath, first=True).text
c = urlxpath+‘/@href’
link = r.html.xpath(c, first=True)
a = “原”
if bt.find(a) == -1:
print(bt)
print(link)
else:
print(bt.replace(a, “”))
print(link)
首先呢,这个是通过xpath来进行操作的,具体如何复制xpath可以看我的zjzdmc.top/jsfx/47.html这篇文章,里面有动图。
然后导入什么库啥的,都是老生常谈的了,在a标签中,你复制的xpath为//*[@id=