Python
学弟不想努力了
不拼,谁都不会知道输的是谁
展开
-
使用Python根据视频链接下载MP4视频
注意:批量下载的时候尽量加延迟,避免网站有反爬机制封掉ip。分别提供了单线程下载,和异步下载。原创 2022-08-19 16:13:21 · 2786 阅读 · 0 评论 -
使用Python根据短视频分享链接解析获取有效的视频详情
获取抖音:带水印视频链接、不带水印的视频链接、视频文案、作者信息原创 2022-08-19 16:07:41 · 3515 阅读 · 1 评论 -
《Python笔记》Scrapy + Splash实现动态数据爬取
现在很多网站都是在浏览器中使用js动态渲染页面,直接意味着无法直接从原始页面中爬取到数据。所以这里就使用可以提供js渲染解析功能的Scrapy-Splash一、安装Scrapy-Splash首先,要明白一点,Scrapy-Splash是需要在docker中使用的,所以前期工作得做好1. 安装docker https://blog.csdn.net/Eternal_Blue/article/details/968559862. docker安装成功后,在docker中安装scrap..原创 2020-08-15 14:45:38 · 901 阅读 · 0 评论 -
《Python笔记》Requests爬虫(3)爬取赶集网数据
py代码如下# coding:utf-8import requestsfrom lxml import etreeimport pymysql# 获取网页源代码url = 'http://sh.ganji.com/zufang/'req = requests.get(url)selector = etree.HTML(req.content)# link链接link = ...原创 2020-03-24 17:13:24 · 428 阅读 · 0 评论 -
《Python笔记》Requests爬虫(1)提取网页源码
一、获取开发者模式(F12)下的网页源码F12---Elements两种引入request的方式,最终再通过request获取网页所以源码第一种引入request方式,from urllib import requestfrom urllib import request# 网站网址url = "http://sh.ganji.com/zufang/"# 打...原创 2020-03-24 15:13:37 · 1024 阅读 · 0 评论 -
Docker下部署python项目
docker中部署python文件,需要三个文件1.需要执行的python文件2.requirements.txt文件,保存所需类库的版本3.dockerfile文件,需要执行的命令一、执行下面命令,生成python项目所依赖的类库文件 pip freeze > requirements.txttxt文件中的版本可根据需求进行增加或删除,我生成的类库txt...原创 2020-03-10 18:16:52 · 1122 阅读 · 0 评论 -
Linux下升级安装python3.8,并配置pip及yum
务器的CentOS 7中自带的python版本是python-2.7.5,需要再安装一个python-3.8.1一、查看版本安装前查看一下是否已经安装过python,我这里自带了python2.7.5版本,所以需要在不删除的情况下,在安装一个python3.8.1版本的,python -V二、安装Python3.8.1官网下载地址:https://www.python....原创 2019-12-30 11:43:41 · 14565 阅读 · 5 评论 -
自然语言处理NLP——提取文章摘要
首先,在这里感谢下编写这些代码的大佬们!!!我先声明下为了方便使用,我这里只是整理(CV)了网上的几种提取摘要的的使用方法,不做任何代码解析,毕竟我也不懂算法。这几种方法我都成功测试过了,但是提取出来数据是有差异的,这里建议这几种方法对比参考后再使用。如果想深入了解逻辑的话,可以反编译下源码,还是不难理解的。一、Java,使用Classifier4J使用该方法,需要引入cl...原创 2019-12-17 11:35:23 · 5242 阅读 · 0 评论 -
《Python笔记》Requests爬虫(2)爬取小说
前言这里只需要一个py文件就能实现数据采集它区别于之前记录的方式,这里没有使用Scrapy框架,直接通过Requests提取使用Requests,需要提前下载好第三方插件库代码注释我已经写的挺清晰的了~~~目标:1. 创建scrapy爬虫项目2. 爬取正确的数据 (1) 对爬取的数据进行格式转换3. 爬取的数据进行数据库存储一、新建一个py文...原创 2019-11-20 17:09:24 · 401 阅读 · 0 评论 -
《Python笔记》Scrapy爬虫(3)服务部署及定时调度
这篇记录一下如何部署scrapy 项目这里是在入门进阶(2)的代码基础,把 scrapy 项目部署到服务器上,并执行启动命令一、通过Xftp将项目丢到服务器的 /home 目录下二、 执行项目1. 非调度执行先在服务器的 /home路径下创建两个文件夹 crawler、logs执行爬虫(scrapy crawl test),并打印日志(/home/logs/c...原创 2019-10-24 14:53:32 · 554 阅读 · 0 评论 -
《Python笔记》Scrapy爬虫(2)MySQL数据库存储
目标:这里是在入门进阶(1)的代码基础,并需要满足下面几个条件1. 爬取正确的数据 (1) 对爬取的数据进行格式转换 (2) 根据自定义规则,拆分标题、章节数2. 爬取的数据存入数据库 (1) 新建数据库 (2) settings.py中配置数据连接信息 (3) 引入已经写好的mysql.py (4) 判断数据库是否存在,...原创 2019-10-15 15:01:11 · 398 阅读 · 0 评论 -
《Python笔记》初步学习:入门进阶,基础篇
目录一、获取时间、日期1. 获取当前时间,时间戳格式2.获取当前时间,yyyy-MM-dd hh:mm:ss 格式3.获取当前日期和时间,并格式化时间戳为本地的日期和时间4.获取当前日期和时间5.获取当前日期和时间,datetime转字符串6.获取当前日期7.获取昨天的当前时间8.获取昨天指定的时间9.获取前一周 (获取前7天周期,不包括今天)10.获取...原创 2019-10-14 09:55:06 · 346 阅读 · 0 评论 -
《Python笔记》Scrapy爬虫(1)本地存储
前言Python刚接触,基础不好,都是现拉过来直接搞爬虫,脑子笨,边学边记录。这里使用Scrapy框架,相关信息需自行百度。使用Scrapy框架,需要提前下载好第三方库目标:1. 本地安装所需要的各种环境,按照自己需要的安装2. 创建scrapy爬虫项目3. 爬取正确的数据 (1) 对爬取的数据进行格式转换4. 爬取的数据进行本地存储(存入txt文...原创 2019-10-14 09:58:04 · 391 阅读 · 0 评论