Python理论与实战
分享基础数据分析、网页爬虫
adventure.Li
南京信息工程大学本科,南京大学研究生,后端Javaer,2022年阿里巴巴编程之夏学员,2023年拼多多暑期实习生,记录个人学习、感悟以及经验分享。
展开
-
还在为写调查问卷发愁的你赶快来看看这个自动填写问卷(问卷星版)
一、背景马克思实践报告需要,由于并不是需要严谨深入的研究调查,因此想到使用自动填写来完成,于是打开pycharm开整吧。二、实现过程chromedriver+selenium填写(可以进行填写,但是发现问卷星反爬虫了,于是采用第二种办法)import timefrom selenium import webdriverimport asynciofrom pyppeteer import launchfrom pyppeteer_stealth import stealth #原创 2021-05-17 23:55:40 · 2410 阅读 · 4 评论 -
采用java和python实现简单的socket编程
一、socket所谓套接字(Socket),就是对网络中不同主机上的应用进程之间进行双向通信的端点的抽象。一个套接字就是网络上进程通信的一端,提供了应用层进程利用网络协议交换数据的机制。从所处的地位来讲,套接字上联应用进程,下联网络协议栈,是应用程序通过网络协议进行通信的接口,是应用程序与网络协议根进行交互的接口 [1] 。个人理解socket的好处:便于选择传输层的协议,另外sokect双向工便于做实时传输,长连接。二、环境pycharm +idea三、实现(1)socket实现 udp原创 2021-01-09 23:47:04 · 884 阅读 · 5 评论 -
一百行代码带你入门爬虫
花了几天,学习了一些爬虫,但感觉方法多,学的有点乱,于是打算写一个完整的爬虫总结,话不多说,直接上代码:# 1.引入网络连接(另外采用urllib)import requests# 验证问题解决import sslssl._create_default_https_context = ssl._create_unverified_context# 2.引入网页解析# 1)正则import re# 2)BeautifulSoupfrom bs4 import BeautifulSoup#原创 2020-09-07 23:10:07 · 613 阅读 · 0 评论 -
【爬虫学习】MAC下的selenium的使用
一、引入在使用Mac进行配置selenium时,可能会比windows较麻烦一点,以下记录一下Mac下的selenium使用。二、步骤1.在pycharm中pip安装seleniumpython -m pip install selenium -U安装成功之后,使用from selenium import webdriver进行测试(若未标红则安装成功,若标红则进行点击安装)2.下载chrome的Chromedriver淘宝下载地址,windows:将其拖入…\Google\Chrome\A原创 2020-09-02 14:19:06 · 2214 阅读 · 0 评论 -
使用easy ui和servlet实现用户登录(附加爬取电影top50展示)
一、引入 在昨天使用servlet实现用户的基础上,整合了一下easy ui进行美化,以及爬虫的信息的简单展示。二、效果展示登录界面主页面![在这里插入图片描述](https://img-blog.csdnimg.cn/20200827231337705.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_a原创 2020-08-27 23:31:10 · 757 阅读 · 0 评论 -
【爬虫案例】Requests爬取豆瓣短评以及入门爬虫注意事项
一、Requests是什么?Requests 是一个 Python 的 HTTP 客户端库。支持的 HTTP 特性:保持活动和连接池、国际域名和URL、Cookie持久性会话浏览器式SSL验证、自动内容解码、基本/摘要身份验证、优雅的键/值Cookie、自动减压、Unicode响应机构、HTTP(S)代理支持分段文件上传、流下载、连接超时、分块请求、.netrc支持、线程安全Requests库的七个主要方法(掌握get即可)requests.request() 构造一个请求,支撑以下各原创 2020-08-24 15:46:02 · 1588 阅读 · 0 评论 -
【爬虫入门】爬取图片并保存在本地
一、分析页面明确所需爬取的标签 -> 分析正则匹配 大家都知道,图片的标签为< img src="">,所以说根据标签想获取图片的网络URL是很容易的(r’src="(.*?)"’),另外有个可以进行正则表达式建议的网站推荐(在线正则测试)二、代码实现(1)引入库requests 、re 、os 、SSL(有时可能存在认证问题)import osimport reimport urllibimpor原创 2020-08-20 18:49:01 · 3945 阅读 · 0 评论 -
【python学习day3】入门爬虫(详细)
一、任务描述 实现简单的网页分析和文字内容爬取,话不多说,直接上代码和步骤分析;二、准备工作(1)了解html的一些简单常识( 可参考 :W3school、MDN)(2)了解正则表达式(可参考: 菜鸟网站) (3)导入的包 requests或者 urllib (本文采用的requests)关于requests与urllib的详细介绍,我就在这里介绍了,有需求请参考文档。三、爬虫实现1.打开网页(1)获取url(2)分析获取的内容右击点击查看到工作台进行原创 2020-08-19 12:46:08 · 462 阅读 · 0 评论 -
【Python学习day2】类与对象、正则的总结
一、类与对象 class className: globalAttribute = 0 #全局变量 def _init_ (self, attribute) :#定义构造函数,self必须有 def getAttribute(self, attribute): self.attribute=attribute #进行操作clasName s = className()print(s.getAttribute())#访问操作 二、正则re.原创 2020-08-18 13:48:14 · 374 阅读 · 0 评论 -
【Python学习day1】io.UnsupportedOperation: not writable的解决办法
一、描述二、解决办法检查打开文件的打开方式是否符合你所需的要求(读写要求以及指针指向位置,此处主要是读写),本人错误的原因是因为使用r 进行的打开却进行了写操作。所以将读写方式**改为r+**即可f = open('/Users/lyf/python/test.txt', 'r+',encoding='utf-8')data = f.read()print(data)f.write('hello')print(f.read())f.close()r :以只读方式打开文件。文件的指针原创 2020-08-17 12:32:02 · 13659 阅读 · 0 评论 -
【Python 机器学习入门】pandas的使用
一、pandas是什么? pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。 常原创 2020-08-01 21:53:48 · 553 阅读 · 0 评论