冲鸭搬砖人

12/8周二
感觉我可以写一个pysonar用法的博客了 虽然不懂原理

今天的任务是
在java里改一下
还是没搞懂 java的命名机制
但我发现他只会把包里面的命名
html的命名 现在他的命名是用.py文件
改完之后 用python把他的格式提取
※给哈深的老师邮过去

感觉这一周莫名的进展缓慢
妈的 加速啊
上周二晚上 不就是我通宵的时候 而我现在还在 这里 啊啊啊啊

2021.9入学 2024.9
2023.1开始面试准备实习 准备好2023.6最终实习
我的秋招是2
设计模式 b站尚硅谷
计算机基础 看书 图解TCP/IP和图解HTTP
并发编程 并发编程的艺术
数据库 高性能数据库、MySQL技术内幕等

框架,spring、SpringMVC、mybatis、SpringBoot、redis,尚硅谷的
不只会调用api,了解其原理实现,这一块的话,我觉得肯定是学越多越好,比如ssm、消息中间件,nosql数据库,微服务框架,分布式等
只要写在简历上了,就要了解原理,不然面试就是炮灰玩家

12.9
1
getPath()得到的文件构造时参数中给出的路径。
. getAbsolutePath()返回的是文件的绝地路径。
getCanonicalPath()也是返回文件的绝对路径,但会去除[…]这样的符号,即返回的是标准的绝地路径。

2 substring()函数应用
String str = “Hello World!”;
//截取从下标为6(包括6)到字符串结束
System.out.println(str.substring(6)); //World!
//截取从下标为0(包括0)到下标为5(不包括5)
System.out.println(str.substring(0, 5)); //Hello

3 java的版本不对 打开 project structure 和settings设置

4运行pysonar的命令
打开虚拟机
cd /usr/java/pysonar
进入到打包好的jar目录下
java -Xms512M -Xmx512M -jar pysonar-2.1.2.jar /usr/lib/python2.7 ./html
运行他 在系统启动时设置JVM内存大小为512m 小了会heap space内存溢出

5
83 def <a name=’.usr.lib.python2%207.site-packages._markerlib.markers.parse_marker’, xid =’.usr.lib.python2%207.site-packages._markerlib.markers.parse_marker’, title=’? -> None’>
爬虫 提取 html
name xid变量名
title为变量类型

12.11
1
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x9d in position 2774:
GBK编码专门用来解决中文编码的,不论中英文都是双字节的。
UTF-8 编码是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码,且包含全世界所有国家需要用到的字符。
解决:打开文件的时候 注明utf8
FILE_OBJECT= open(‘order.log’,‘r’, encoding=‘UTF-8’)

2python的多行注释使用

"""
ssss
"""
'''
sss
'''

3
12.12

<a title="None" 
class="active" 
href="#.usr.lib.python2%207.site-packages.augeas.Augeas.__handle" xid=".usr.lib.python2%207.site-packages.augeas.Augeas.__handle" ,="">__handle</a>
#! -*-coding: utf-8 -*-
import os
from lxml import etree
file_name= 'D:\\BaiduYunDownload\\pysonar2-master\\pysonar2-master\\html\\site-packages\\augeas.py.html'# 文件夹目录
re = open(file_name)
page = re.read()
#spider = etree.HTML(page.lower().decode('utf-8'))
spider = etree.HTML(page)
titles = spider.xpath("//a/@title")
xids = spider.xpath("//a/@xid")
print(titles)
print(xids)
from bs4 import BeautifulSoup

f = open('D:\\BaiduYunDownload\\pysonar2-master\\pysonar2-master\\html\\site-packages\\augeas.py.html')
html = f.read()
f.close()

soup = BeautifulSoup(html,'html.parser')
result_1 = soup.find_all(name='span',attrs={'class':'lineno'})
t=0
for r in result_1:
	print(r.text)
	t=t+1
# print(result_1)
m=0
result_2 = soup.find_all(name='a')
for r in result_2:
	m = m + 1
	try:
		print(r.attrs['href'])

	except:
		pass
print(t)
print(m)

实现了变量名和类型的提取 但是想改成 行数的提取
放在ast里
用beautiful soap实现
明天的任务 弄清 ast是如何作用的 输出是什么形式
把beautiful soap的兄弟标签提取 实现
即 提取 lineno 行数 title变量 xid变量名 等

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值