python
吱吱不倦小子
学人之所学,成人之所成。(学习内容来源网上整理,如有侵权,请联系我删除。)
展开
-
学会Python正则表达式,就看这20个例子(整理自老表)
1 查找第一个匹配串import res='ilovepythonverymuch'pat='python'r=re.search(pat,s)print(r.span())#(7,13)2 查找所有1s='山东省潍坊市青州第1中学高三1班'pat='1'r=re.finditer(pat,s)foriinr:...原创 2019-12-25 20:29:55 · 298 阅读 · 0 评论 -
(一)bert环境搭建
最近接了一个任务关于bert生成变量,下面就踩雷事件具体描述一下,小白之间也要互相学习啊。环境配置:1,安装tensorflow2,安装package pip install bert-serving-server pip install bert-serving-client3,下载中文bert预训练的模型(https://github.com/google-res...原创 2019-06-14 17:28:20 · 8305 阅读 · 11 评论 -
实现求链表的中间结点
实现求链表的中间结点class ListNode: def __init__(self, x): self.val = x self.next = Noneimport mathclass Solution: def middleNode(self, head): # 首先要知道链表一共有多少个结点 ...原创 2019-02-28 17:31:12 · 280 阅读 · 0 评论 -
单链表反转
单链表反转class Node(object): def __init__(self, data, next=None): self.val = data self.next = next def fun4(head): if head == None: return None L,M,R = None,None,h...原创 2019-02-28 16:50:00 · 227 阅读 · 0 评论 -
python实现链表
用python实现单链表class Node(object): """定义一个节点""" def __init__(self, elem): self.elem = elem self.next = None """定义一个单链表""" class SingleLinkList(object): def __in原创 2019-02-28 16:40:02 · 244 阅读 · 0 评论 -
实现两个有序数组合并为一个有序数组 python
实现两个有序数组合并为一个有序数组test1 = [1,3,5,7,9]test2=[2,4,6,7,10,11,34,55]def mergetest(test1,test2): result=[ ] len1=len(test1) len2=len(test2) ...原创 2019-02-28 14:21:54 · 1622 阅读 · 0 评论 -
python实现动态数组
实现一个支持动态扩容的数组并完成其增删改查#通过python实现动态数组"""数组特点: 占用一段连续的内存空间,支持随机(索引)访问,且时间复杂度为O(1) 添加元素时间复杂度:O(n) 删除元素时间复杂度:O(n)"""class Arr: def __init__(self, capacity=10): """ ...原创 2019-02-28 11:55:09 · 6901 阅读 · 1 评论 -
python库版本不兼容
原创 2018-11-12 11:57:37 · 1900 阅读 · 0 评论 -
python处理html中的以&#开头的编码
乱码格式类似‘图灵程序设计丛书’代码为:text='图灵程序设计&原创 2018-11-08 16:29:35 · 3127 阅读 · 1 评论 -
豆瓣个人信息的爬取
通过scrapy框架模拟登陆豆瓣并进入个人信息页面# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport urllib.requestclass DbSpider(scrapy.Spider): name = 'db' allowed_domains ...原创 2018-08-21 15:04:16 · 2828 阅读 · 2 评论 -
浏览器的模拟——Headers属性
有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么可以设置Header信息,模拟浏览器去访问这些网站,此时,就能解决这个问题。添加User-Agent的两种方法方法一:使用build_opean()修改包头import urllib.requesturl="https://blog.csdn.net/u0131...原创 2018-08-23 16:22:19 · 2365 阅读 · 0 评论 -
scrapy中 HTTP status code is not handled or not allowed异常处理
scrapy中的setting文件中添加HTTPERROR_ALLOWED_CODES = [403]原创 2018-08-20 17:42:20 · 8480 阅读 · 6 评论 -
urllib使用补充(二)
除一提到之外,urllib中还有一些常见的用法如果希望返回与当前环境有关的信息,我们可以用info()返回,格式为“爬取的网页.info()”,爬取的网页赋值为filefile.info()如果希望获取当前爬取网页的状态码,我们可以使用getcode(),格式为“爬取的网页.getcode()”,爬取的网页赋值为filefile.getcode()如果想要获得当前爬取的ur...原创 2018-08-23 15:40:58 · 217 阅读 · 0 评论 -
Urllib的使用(一)
1,使用urllib爬取网页首先需要导入对应的模块import urllib.request2,在导入模块后,我们需要使用urllib.request.urlopen打开并爬取一个网页。(以百度网址http://www.baidu.com为例)file=urllib.request.urlopean("http://www.baidu.com")3,读取网页内容data=...原创 2018-08-23 15:27:06 · 553 阅读 · 0 评论 -
某站点的网址分析与下载总结
一,站点难点分析 1,构造地址难度大,所有的地址通过ajax请求访问并通过多个js封装调用,参数通过sql字段拼接。 2,即使构造好地址,通过浏览器打开,全部返回首页。二,站点的解决办法(selenium+webdriver+xpath+mysql) 综上分析站点的技术难点,通过以下几种方法解决 1,单纯的通过构造地址的方式请求网页的方法是不...原创 2018-08-03 17:26:14 · 402 阅读 · 0 评论