u014229742的博客

一起学习,共同进步!

当无法使用xftp传输文件到linux时的解决办法

yum -y install lrzsz 安装好了 输入rz

2019-04-18 15:41:51

阅读数 2

评论数 0

Project(1)阶段性总结续文

爬取的项目大概有200多万数据,基本都是做数据补全。目前已经接近尾声,还是遇到不少问题,感觉还是要总结一下才对得起花费的时间。 爬虫过程,最好将整个页面也拿下来。 这次爬虫吃了大亏。同一数据爬取了3次,因为每次拿到的数据和网页不一致。后来采取了保存整个网页,这样,在数据验收的时候,当发现爬取下...

2019-03-22 11:45:18

阅读数 19

评论数 0

继403后又发现一个坑

发现爬取的数据正确,但是时间不对。最后想到的解决办法是重新爬,可以重新爬取有80多万的量,这样下去又要花很久的时间。突然发现爬虫中保存HTML页面的必要性。虽然爬取的时候感觉这样很麻烦,可是如果大量数据已经爬取完成,再发现小问题都无从考证,到底是爬取方案有问题,还是页面数据更新了?没有原始网页,这...

2019-03-20 16:31:59

阅读数 123

评论数 0

使用linux命令每隔一段时间启动一次爬虫

while [ 1 ]; do python3 test.py & sleep 600;pkill -9 test.py; done

2019-03-19 17:44:38

阅读数 15

评论数 0

启动Appium报错解决办法

在命令行中输入“adb shell”进入shell之后,再输入“cat /system/build.prop” 获取到deviceName

2019-03-12 11:49:02

阅读数 29

评论数 0

[WinError 5] 拒绝访问。: 'd:\\anaconda\\lib\\site-packages\\cryptography\\hazmat\\bindings\\_constant_ti

通过pip install mitmproxy安装mitmproxy报错:[WinError 5] 拒绝访问。: 'd:\anaconda\lib\site-packages\cryptography\hazmat\bindings\_constant_ti。。。。。。 解决方法是: pip in...

2019-03-11 16:46:02

阅读数 117

评论数 0

fiddler突然抓不了包的解决办法

今天fiddler突然抓不了包的解决办法,百度了很多办法都没解决,最后发现是因为我浏览器使用了直接代理,当选择为系统代理后,fiddle就可以正常抓包了。 ...

2019-03-08 17:04:00

阅读数 48

评论数 0

Project(1)阶段性总结

从2月底出去过年的时间,一直在忙着一个补全数据的项目,从开始的对项目反感抵触(主要是觉得简单),但真正的经历过后,一路上受益匪浅,还是学到了很多的东西。 从该项目中主要学到以下: 1.不管做什么之前,先捋顺思路,第一步做什么,下一步做什么很关键。比如针对该项目,我觉得我应该这样去完成 将所有的...

2019-03-08 16:10:47

阅读数 26

评论数 1

继403,503后遇到的问题

1.随着代码的运行,网站会返回403,503给我,然后我切换IP重新获取,可以获取到数据。 2.但是遇到一个问题,就是代码跑着跑着,一直在报403,一直在切换IP重新获取数据。 3.可是我发现一个现象,就是我此时重新运行爬虫代码,又可以获取大量的数据,不会报403.随着代码的运行,又开始报403,...

2019-03-04 10:38:26

阅读数 19

评论数 0

使用python语言驱动火狐浏览器配置步骤

1.下载火狐浏览器 2.下载电脑对应版本的火狐驱动程序geckodriver.exe 3.安装获取浏览器后将geckodriver.exe放在其目录下,并将该火狐浏览器路径添加到环境变量PATH中 4.pycharm选择对应的解释器,并把geckodriver.exe放在和python.exe同级...

2019-02-27 17:24:52

阅读数 41

评论数 0

502、503问题

403是解决了,现在遇到服务器直接屏蔽所有用户的请求!!!

2019-02-26 17:17:28

阅读数 203

评论数 0

一些基础编程题的更优解

练习1:输入三个整数x,y,z,请把这三个数由小到大输出。 #程序分析:我们想办法把最小的数放到x上,先将x与y进行比较,如果x>y则将x与y的值进行交换, 然后再用x与z进行比较,如果x>z则将x与z的值进行交换,这样能使x最小。 list1 = []...

2019-02-22 15:37:55

阅读数 37

评论数 0

输入三个整数x,y,z,请把这三个数由小到大输出

#练习1:输入三个整数x,y,z,请把这三个数由小到大输出。 #程序分析:我们想办法把最小的数放到x上,先将x与y进行比较,如果x>y则将x与y的值进行交换, 然后再用x与z进行比较,如果x>z则将x与z的值进行交换,这样能使x最小。 l_list = ...

2019-02-22 10:52:18

阅读数 28

评论数 0

输入日期,判断该日期是一年中的第几天

year = int(input(‘year:\n’)) month = int(input(‘month:\n’)) day = int(input(‘day:\n’)) “”" 1,3,5,7,8,10,12 这几月永远31天。2月平年28天,闰年(一般年份能整除4或百年年份...

2019-02-20 16:54:44

阅读数 23

评论数 0

爬虫中403问题

今天爬虫遇到一个情况,使用了代理,但程序有时状态403,导致有些数据获取不到!

2019-02-15 11:13:33

阅读数 50

评论数 0

关于字符串的一些操作

#去掉 空格 \t new_string2 = ‘fasdf dsff \tfafafa\tfafda’ print(new_string2.split())

2019-01-18 11:11:25

阅读数 31

评论数 0

monog-find

db.getCollection(‘hongqing-116’).find({company_name:‘重庆球球商贸有限公司’})

2019-01-16 14:26:22

阅读数 22

评论数 0

fake-useragent

1.fake-useragent pip install fake_useragent from fake_useragent import UserAgent ua = UserAgent(verify=False) print(ua.random)

2019-01-10 15:20:25

阅读数 68

评论数 0

正则匹配时间

以下是该网页在北京时间 2018年12月24日 22:58:19 的快照; publish_time = response.xpath('//*[@id="bd_snap_txt"]/span[2]/text()')[0] print(publi...

2019-01-10 10:22:35

阅读数 67

评论数 0

奇葩错误

200 {“status”:false,“msg”:“您操作太频繁,请稍后再访问”,“clientIp”:“1.196.135.245”,“state”:2402}

2019-01-08 17:24:23

阅读数 142

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭