python采集文章_Python爬虫，python设计原文章采集源码

最新推荐文章于 2022-12-10 10:47:11 发布

weixin_39928768

最新推荐文章于 2022-12-10 10:47:11 发布

阅读量82

点赞数

文章标签： python采集文章

#设计原采集

import requests

import re

from lxml import etree

import os

os.makedirs(f'shejy/',exist_ok=True)

#获取页码

def get_page(category):

url = f"http://jy.sccnn.com/category-{category}_1.html"

html = requests.get(url).text

# print(html)

pagesze=r'1(.+?)

pages=re.findall(pagesze,html,re.S)

pageze=r'>›.+?››'

page=re.findall(pageze,pages[0],re.S)

page=page[0]

print(page)

return page

#获取链接列表

def get_urls(category,i):

url=f"http://jy.sccnn.com/category-{category}_{i}.html"

try:

html=requests.get(url).text

#print(html)

urlsze=r'auth1">.+?

urls=re.findall(urlsze,html,re.S)

print(f"{url}-----访问失败！")

with open('shejy/spider.txt','a+',encoding='utf-8') as f:

f.write(f"{url}-----访问失败！\n")

html = requests.get(url).text

#print(html)

con = etree.HTML(html)

# 获取标题

h = con.xpath('//div[@class="singletitle"]/h2/text()')

h = h[0]

h = re.sub(r'[\|\/\<\>\:\*\?\\\"]', "_", h) # 剔除不合法字符

print(h)

os.makedirs(f'shejy/{h}/', exist_ok=True)

# 获取源码

con_textze = r'

(.+?)

con_text = re.findall(con_textze, html, re.S)

con_text = con_text[0]

print(con_text)

# 获取文本

texts = etree.HTML(con_text)

text = texts.xpath('string(.)')

print(text)

# 获取图片

imgs = texts.xpath('//img')

# print(len(imgs))

for img in imgs:

img_url = img.attrib['src']

img_name = img_url[-12:]

print(img_name)

try:

r = requests.get(img_url)

with open(f'shejy/{h}/{img_name}', 'wb') as f:

f.write(r.content)

print(f"保存{img_name}图片成功了！")

except:

print(f"{img_url}-----访问失败！")

with open('shejy/spider.txt', 'a+', encoding='utf-8') as f:

f.write(f"{img_url}-----访问失败！\n")

pass

dates = '%s%s%s%s%s' % (h, '\n', con_text, '\n', text)

with open(f'shejy/{h}/{h}.txt', 'w+', encoding='utf-8') as f:

f.write(dates)

print(f"保存{h}.txt成功了！")

except:

print(f"{url}-----访问失败！")

with open('shejy/spider.txt','a+',encoding='utf-8') as f:

f.write(f"{url}-----访问失败！\n")

if __name__ == '__main__':

category=input("请输入要采集的分类：")

num=get_page(category)

num=int(num)

urlss=[]

for i in range(1,num+1):

urls=get_urls(category,i)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39928768

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【Python实战】---- 爬取 CSDN 专栏文章列表

止于至善

09-20

726

需求就是专栏中文章随着时间写的越多，如果后边需要去查找的时候比较麻烦，比如一些不常用的 git 命令，或者有些开发场景的细节，在之前已经开发完了，现在忘记部分细节，需要在之前的输出文章中去查找，当几十几百篇文章时，查找就比较麻烦，但是如果没发布一篇文章，自己去更新专栏的文章目录又是一个比较繁琐的事情，因此写了一个小的爬取程序，在每次发布新的文章时，运行此程序，就可以更新文章目录，方便后期在需要的时候能够快速查找。

python抓取天气源码

10-07

参考一篇文章http://www.cnblogs.com/chenkun24/archive/2012/10/06/2713348.html，由于作者没有给出源码，自己尝试练手小程序，非常之小！

参与评论您还未登录，请先登录后发表或查看评论

python采集文章_python 采集唯美girl

weixin_39716521的博客

11-26

import requests;import re;import os;# 1.请求网页header = {"user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}response ...

python采集文章_Python爬虫，python知乎专栏文章采集案例源码

weixin_39779528的博客

11-26

229

#知乎专栏文章采集# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport jsonimport reimport osdef hqlj(url):headers={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (K...

python采集文章_python学习基础之信息采集

weixin_39598135的博客

11-26

160

今天在网上看了一部小说，明明是很早以前的小说，换个名字，居然要付费了，很不开心；通过强大的百度，我找到了原始版本，本来很开心了，奈何不能下载，眼睛很辛苦，我本意是下下来拿到手机上朗读的，没办法只能自己动手采集下来了；import urllib.requestimport re啥也不说，先把需要的包给列出来。我们的命名尽量用规范化操作，这样自己养成好习惯，别人看起来也容易理解；业内管这玩意叫驼峰命名...

使用python采集文章含详细代码

04-18

1969

Python的发展前景是不可估量的，它可以做后端开发、前端开发、爬虫开发、人工智能、金融量化分析、大数据、物联网等，Python应用无处不在，Google搜索引擎核心代码是Python完成的，迪士尼公司动画生成的Unix版本内建了Python环境支持，豆瓣网也是使用Python做的。Python还含有优质的文档、丰富的AI库、机器学习库、自然语言和文本处理库，让我们可以站在别人的肩上进行开发。国内...

基于Python采集136个PHP源码

最新发布

zy0412326的专栏

12-10

643

python采集 PHP源码

用Python写网络爬虫_爬虫python_爬虫_python爬虫_python_meii2_源码

09-30

标题中的“用Python写网络爬虫”意味着我们将深入探讨如何使用Python编程语言来构建网络爬虫，这是一种自动抓取互联网信息的程序。Python因其简洁易读的语法和丰富的库支持，成为了开发网络爬虫的首选语言。在这个...

python地铁客流量分析平台_python毕业设计_爬虫可视化_论文_python_毕业论文_源码.zip

09-30

该压缩包文件“python地铁客流量分析平台_python毕业设计_爬虫可视化_论文_python_毕业论文_源码.zip”显然包含了一个使用Python编程语言完成的毕业设计项目，专注于地铁客流量的数据分析。该项目可能涵盖了以下几个...

Python爬虫源码文件_pachong_python爬虫_python_website_

09-30

在本压缩包中，"Python爬虫源码文件_pachong_python爬虫_python_website_" 提供了相关的Python爬虫源代码，旨在帮助用户了解和学习如何编写爬虫来抓取网站数据。首先，我们要理解Python爬虫的基本结构。一个简单的...

crawlerforSinaweibo_爬虫python_webcrawler_python_weibo_python爬虫_源码

10-25

【标题】：“crawlerforSinaweibo_爬虫python_webcrawler_python_weibo_python爬虫_源码” 这个标题明确指出这是一个关于Python爬虫的项目，特别针对的是新浪微博（Sina Weibo）的数据抓取。"Webcrawler"是网络爬虫...

ncp爬虫4_爬虫python_农产品_农产品爬虫_python_likely781_源码

10-02

总结，"ncp爬虫4"项目涵盖了Python爬虫的基础和进阶技术，包括请求、解析、数据处理、存储和分析等多个环节。通过这个项目，我们可以学习到如何构建一个完整的数据爬取和分析流程，同时提升Python编程和数据分析的...

抓取CSDN博客文章的简单爬虫python源码

06-25

抓取CSDN博客文章的简单爬虫python源码

python网页采集工具

10-10

我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。

逐渐嚣张，使用python采集本家文章数据保存PDF

python56123的博客

04-18

693

前言嗨喽！大家好呀，这里是魔王~** 本次必备素材: wkhtmltopdf [软件] 素材代码第三方库： requests >>> pip install requests parsel >>> pip install parsel pdfkit >>> pip install pdfkit 开发环境：版本：python3.8 编辑器：pycharm win + R 输入cmd 输入安装命令 pip install 模块名如果出现

python从零写一个采集器:获取网页源码

MichaelJScofield的专栏

05-16

6198

博客链接 https://uublog.com/article/20170206/python-get-web-source/前言过完年无聊，想学学Python，想了半天，从实用的角度出发，打算边学边做。想了半天，还是写一个采集器好点。目标嘛，就是采集 www.sobaidupan.com 的内容入库。因为是初学，有很多不懂，所以一切从简，实现目的第一，性能第二。正文既然要采集，肯定

python采集文章_python采集文章中图片的方法源码

weixin_39581652的博客

11-26

217

这是收集的一篇关于利用python语言来采集文章中图片的方法源码。python采集文章中图片的方法源码如下：（供参考）import os,time,sys,re,threadingimport urllibDOWNLOAD_BASEDIR = os.path.join(os.path.dirname(__file__), 'download')DOWNLOAD_BASEURL = './downl...

Python篇----Requests获取网页源码（爬虫基础）