冲鸭搬砖人

最新推荐文章于 2022-07-28 13:02:12 发布

lisa_ddddd

最新推荐文章于 2022-07-28 13:02:12 发布

阅读量135

点赞数

本文链接：https://blog.csdn.net/weixin_43431998/article/details/110872669

版权

12/8周二
感觉我可以写一个pysonar用法的博客了虽然不懂原理

今天的任务是
在java里改一下
还是没搞懂 java的命名机制
但我发现他只会把包里面的命名
html的命名现在他的命名是用.py文件
改完之后用python把他的格式提取
※给哈深的老师邮过去

感觉这一周莫名的进展缓慢
妈的加速啊
上周二晚上不就是我通宵的时候而我现在还在这里啊啊啊啊
四

2021.9入学 2024.9
2023.1开始面试准备实习准备好2023.6最终实习
我的秋招是2
设计模式 b站尚硅谷
计算机基础看书图解TCP/IP和图解HTTP
并发编程并发编程的艺术
数据库高性能数据库、MySQL技术内幕等

框架，spring、SpringMVC、mybatis、SpringBoot、redis，尚硅谷的
不只会调用api，了解其原理实现，这一块的话，我觉得肯定是学越多越好，比如ssm、消息中间件，nosql数据库，微服务框架，分布式等
只要写在简历上了，就要了解原理，不然面试就是炮灰玩家

12.9
1
getPath()得到的文件构造时参数中给出的路径。
. getAbsolutePath()返回的是文件的绝地路径。
getCanonicalPath()也是返回文件的绝对路径，但会去除[…]这样的符号，即返回的是标准的绝地路径。

2 substring()函数应用
String str = “Hello World!”;
//截取从下标为6(包括6)到字符串结束
System.out.println(str.substring(6)); //World!
//截取从下标为0(包括0)到下标为5(不包括5)
System.out.println(str.substring(0, 5)); //Hello

3 java的版本不对打开 project structure 和settings设置

4运行pysonar的命令
打开虚拟机
cd /usr/java/pysonar
进入到打包好的jar目录下
java -Xms512M -Xmx512M -jar pysonar-2.1.2.jar /usr/lib/python2.7 ./html
运行他在系统启动时设置JVM内存大小为512m 小了会heap space内存溢出

5
83 def <a name=’.usr.lib.python2%207.site-packages._markerlib.markers.parse_marker’, xid =’.usr.lib.python2%207.site-packages._markerlib.markers.parse_marker’, title=’? -> None’>
爬虫提取 html
name xid变量名
title为变量类型

12.11
1
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x9d in position 2774:
GBK编码专门用来解决中文编码的，不论中英文都是双字节的。
UTF－8 编码是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码，且包含全世界所有国家需要用到的字符。
解决：打开文件的时候注明utf8
FILE_OBJECT= open(‘order.log’,‘r’, encoding=‘UTF-8’)

2python的多行注释使用

"""
ssss
"""
'''
sss
'''

3
12.12

<a title="None" 
class="active" 
href="#.usr.lib.python2%207.site-packages.augeas.Augeas.__handle" xid=".usr.lib.python2%207.site-packages.augeas.Augeas.__handle" ,="">__handle</a>

#! -*-coding: utf-8 -*-
import os
from lxml import etree
file_name= 'D:\\BaiduYunDownload\\pysonar2-master\\pysonar2-master\\html\\site-packages\\augeas.py.html'# 文件夹目录
re = open(file_name)
page = re.read()
#spider = etree.HTML(page.lower().decode('utf-8'))
spider = etree.HTML(page)
titles = spider.xpath("//a/@title")
xids = spider.xpath("//a/@xid")
print(titles)
print(xids)

from bs4 import BeautifulSoup

f = open('D:\\BaiduYunDownload\\pysonar2-master\\pysonar2-master\\html\\site-packages\\augeas.py.html')
html = f.read()
f.close()

soup = BeautifulSoup(html,'html.parser')
result_1 = soup.find_all(name='span',attrs={'class':'lineno'})
t=0
for r in result_1:
	print(r.text)
	t=t+1
# print(result_1)
m=0
result_2 = soup.find_all(name='a')
for r in result_2:
	m = m + 1
	try:
		print(r.attrs['href'])

	except:
		pass
print(t)
print(m)