分析:在链接中找到,文件内容怎么插入,已经内容如何插入是换行
参考地址:
①http://www.nnzhp.cn/archives/160
②https://zhidao.baidu.com/question/577466186.html
重点代码
sep=’\n’#sep是分隔符,sep=’\n’就是分行输入
f = open(‘C:\Users\ldh\Desktop\file.txt’, ‘r+’, encoding=‘utf-8’)#文件夹的地址要写双斜杠
f.write(sep.join(html))
f.close()
=================一个打印再打印一个
备注:实际上只是把结果换一下而已
①先查询链接地址
sep='\n'#sep是分隔符,sep='\n'就是分行输入
from lxml import etree#调用的函数
import requests #调用的函数
r=requests.get('https://blog.csdn.net/weixin_41665637').content#被测地址
topic=etree.HTML(r)
html=topic.xpath("//main/div/div/h4/a/@href")#抓取链接
title=topic.xpath("//main/div/div/h4/a/text()")#抓取标题
#
# print(html)
# print(title)
sep='\n'#sep是分隔符,sep='\n'就是分行输入
f = open('C:\\Users\\ldh\\Desktop\\file.txt', 'r+', encoding='utf-8')#文件夹的地址要写双斜杠
f.write(sep.join(html))
f.close()
②再查询标题
from lxml import etree#调用的函数
import requests #调用的函数
r=requests.get('https://blog.csdn.net/weixin_41665637').content#被测地址
topic=etree.HTML(r)
html=topic.xpath("//main/div/div/h4/a/@href")#抓取链接
title=topic.xpath("//main/div/div/h4/a/text()")#抓取标题
#
# print(html)
# print(title)
sep='\n'#sep是分隔符,sep='\n'就是分行输入
f = open('C:\\Users\\ldh\\Desktop\\file.txt', 'r+', encoding='utf-8')#文件夹的地址要写双斜杠
f.write(sep.join(title))
f.close()
分开查数据
==============两个一起打印
分析:其实就是把第一次打印的数据+第二次打印的数据
from lxml import etree#调用的函数
import requests #调用的函数
r=requests.get('https://blog.csdn.net/weixin_41665637').content#被测地址
topic=etree.HTML(r)
html=topic.xpath("//main/div/div/h4/a/@href")#抓取链接
title=topic.xpath("//main/div/div/h4/a/text()")#抓取标题
#
# print(html)
# print(title)
sep1='\n'#sep是分隔符,sep='\n'就是分行输入
sep2='\n'
f = open('C:\\Users\\ldh\\Desktop\\file.csv', 'r+', encoding='utf-8')#文件夹的地址要写双斜杠
c=f.write((sep1.join(html)))
b=f.write((sep1.join(title)))
d=c+b
print(d)
f.close()
#
#
#